Вернуться на страницу семестра
Гомологичность белков, найденных поиском BLAST
В данной работе использовалась программа BLAST.
Страницу об белке дигуанилатциклазы AMD46139.1 из генома бактерии Bordetella holmesii H558 можно увидеть по ссылке.
При помощи BLAST и нескольких поисков с изменением настроек были найдены белки с очень низким E-value и довольно высоким (больше 0,001).
В таблице 1 можно узнать о белках, выбранных для последующего множественного выравния.
Таблица 1. Параметры парных локальных выравниваний с выбранными белками
ID/AC |
Name |
Organism |
Coverage, % |
Identity, % |
E-value |
Homology |
WP_027896295.1 |
Diguanylate cyclase |
Pseudomonas thermotolerans |
98 |
47 |
2e-135 |
Да |
P0AA89.1 |
Diguanylate cyclase DosC |
Escherichia coli K-12 |
91 |
34 |
2e-82 |
Да |
Q83KV7.1 |
Diguanylate cyclase DosC |
Shigella flexneri |
70 |
32 |
4e-52 |
Да |
Q8ZNT5.1 |
Cellulose synthesis regulatory protein |
Salmonella enterica |
41 |
38 |
6e-30 |
Нет |
P77334.1 |
Cyclic di-GMP phosphodiesterase Gmr |
Escherichia coli K-12 |
34 |
30 |
4e-10 |
Нет |
P75801.1 |
Putative lipoprotein YliF |
Escherichia coli K-12 |
26 |
29 |
8e-07 |
Нет |
XP_001618013.1 |
Hypothetical protein NEMVEDRAFT_v1g225592 |
Nematostella vectensis |
10 |
53 |
0.18 |
Нет |
XP_005764193.1 |
Hypothetical protein EMIHUDRAFT_459728 |
Emiliania huxleyi CCMP1516 |
33 |
29 |
0.56 |
Нет |
EGT46470.1 |
Hypothetical protein EMIHUDRAFT_223522 |
Emiliania huxleyi CCMP1516 |
32 |
29 |
6.7 |
Нет |
Я скачала участки локального выравнивания, которые выдала программа BLAST и провела множественное в программе JalView. Для выяснения гомологии нужно обратить внимание главным образом на следующие вещи: математическое ожидание E-value (чем меньше, тем лучше), количество консервативных позиций,
инделей и гэпов в выравнивании, блоки во множественном выравнивании, также само название и сходство функций белков могут дать подсказку.
Блок достоверного выравнивания я определяла примерно по следующим критериям: нет гэпов, концевые позиции блока абсолютно консервативны или функционально консервативны, если в колонке свойства аминокислот резко отличаются, то считаю, что блок закончился,
по количеству консервативных позиций и их соотношению к длине блока точных критериев я не устанавливала, и даже если бы установила, они были бы эмпирическими, поэтому ориентируюсь на общую достоверность блока, длина блока от 4 остатков.
Рис. 1. Множественное выравнивание с веделенными блоками
![](../image/pr12.png)
Оговорка: начальная последовательность нулевая, остальные в моём комментарий согласно положению в таблице 1.
Первый блок в позициях 95-102 я выделила только на начальном и 3 следующих белках, он мне кажется очень достоверным, потому что почти все позиции консервативны, а глицин и аланин даже структурно очень похожи.
Следующие 2 блока 171-180 и 183-187 очень бы хотелось объединить в единый, но глутаминовая кислота имеет резко отличающиеся свойства от алифатических аминокислот, поэтому блоки разбиты. Но опять же, их близость друг к другу даёт дополнительную достоверность.
В позиции 177-178 я посчитала нормальным оставить выбивающиеся функционально серин и глутаминовую кислоту в блоке, потому что свойства отличаются не так резко, а в случае замены глутамина на глутамат можно увидеть логику.
Блок 220-224 составлен из абсолютно консервативных позиций.
Единственные блоки, которые можно распространить на все выбранные последовательности (кроме шестой и дважды седьмой), это 301-304 и 335-338. В первой я посчитала функционально схожими алифатические аминокислоты, иминокислоту пролин и серин;
во втором пришлось закрыть глаза на выбивающийся из общей картины фенилаланин в первой колонке.
Правдоподобными мне показались блоки 306-312 и 318-324 на первых 3 возможно гомологичных последовательностях. Здесь метионин, несмотря на полярность, объединён с лейцинами в 306, тирозин и фенилаланин объединены как ароматические, лизин и аргинин как положительно заряженные.
Во втором блоке объединены валин, лейцин, изолейцин как алифатические, серин с аланином аналогично описанным ранее блокам, тирозин с гистидином, несмотря на отличающийся заряд объединены по ароматичности.
Последний блок 386-392 распространился на 5 из 9 выбранных белков (белок 3 не входит в блок), в позиции 391 выбивается цистеин, но я подумала, что, несмотря на полярность цистеина, эту колонку можно оставить в блоке.
Если бы я оставила только первые 4 колонки, то блок бы распространился вертикально, но изолейцин и фенилаланин слишком разные, чтобы быть вместе в колонке блока.
Итого первые 3 белка бесспорно гомологи - они входят во все блоки, которых довольно много. Для остальных белков недостаточно оснований для предположения гомологичности, а 7 белок вообще не вошёл ни в один блок (изначально локальное выравнивание было очень коротким).
Таким образом, оправдались ожидания, которые можно было сделать уже из таблицы по названиям белков - дигуанилатциклазы Pseudomonas thermotolerans,
Escherichia coli K-12 и Shigella flexneri гомологичны дигуанилатциклазе Bordetella holmesii.
Скачать выравнивание задания 1
Крупные перестройки между парой белков, имеющих гомологичные участки (домены)
Для работы я выбрала белок гельзолин человека P06396 [1].
Рисунок 2. Гельзолин 1KCQ
|
Аминокислотная последовательность гельзолина
1 MAPHRPAPAL LCALSLALCA LSLPVRAATA SRGASQAGAP QGRVPEARPN 50
51 SMVVEHPEFL KAGKEPGLQI WRVEKFDLVP VPTNLYGDFF TGDAYVILKT 100
101 VQLRNGNLQY DLHYWLGNEC SQDESGAAAI FTVQLDDYLN GRAVQHREVQ 150
151 GFESATFLGY FKSGLKYKKG GVASGFKHVV PNEVVVQRLF QVKGRRVVRA 200
201 TEVPVSWESF NNGDCFILDL GNNIHQWCGS NSNRYERLKA TQVSKGIRDN 250
251 ERSGRARVHV SEEGTEPEAM LQVLGPKPAL PAGTEDTAKE DAANRKLAKL 300
301 YKVSNGAGTM SVSLVADENP FAQGALKSED CFILDHGKDG KIFVWKGKQA 350
351 NTEERKAALK TASDFITKMD YPKQTQVSVL PEGGETPLFK QFFKNWRDPD 400
401 QTDGLGLSYL SSHIANVERV PFDAATLHTS TAMAAQHGMD DDGTGQKQIW 450
451 RIEGSNKVPV DPATYGQFYG GDSYIILYNY RHGGRQGQII YNWQGAQSTQ 500
501 DEVAASAILT AQLDEELGGT PVQSRVVQGK EPAHLMSLFG GKPMIIYKGG 550
551 TSREGGQTAP ASTRLFQVRA NSAGATRAVE VLPKAGALNS NDAFVLKTPS 600
601 AAYLWVGTGA SEAEKTGAQE LLRVLRAQPV QVAEGSEPDG FWEALGGKAA 650
651 YRTSPRLKDK KMDAHPPRLF ACSNKIGRFV IEEVPGELMQ EDLATDDVML 700
701 LDTWDQVFVW VGKDSQEEEK TEALTSAKRY IETDPANRDR RTPITVVKQG 750
751 FEPPSFVGWF LGWDDDYWSV DPLDRAMAEL AA 782
|
|
Гельзолин - белок цитоскелета, содержит три актин-связывающих участка [2].
В С-концевой половине молекулы гельзолина расположены Ca-чувствительный актин-связывающий сайт и Ca-связывающий участок молекулы (серые точки на рис. 3).
Два других актин-связывающих участка расположены на N-конце молекулы.
Рисунок 3. Домены гельзолина [3]
Поиск BLAST по гельзолину выдал довольно интересные результаты: некоторые последовательности можно было выровнять с нашим белком несколькими способами,
где одни выравнивания лучше, другие хуже. Я увидела это в Graphic Summary: некоторые полосы были 2 цветов (красный и розовый). К таким интересным белкам и
принадлежал виллин из риса посевного (Oryza sativa). Виллин (95 кД) высоко гомологичен гельзолину. В отличие от гельзолина, в отсутствие кальция виллин
обладает способностью сшивать актиновые филаменты. Эта его активность обеспечивается наличием дополнительной последовательности на C-конце, отсутствующей у гельзолина
[4].
Рисунок 4. Домены виллина [5]
Таблица 2. Выравнивание гельзолина и виллина
ID/AC |
Name |
Organism |
Length |
Coverage, % |
Identity, % |
E-value |
P06396.1 B8AY58.1 |
Gelsolin Villin-1 |
Homo sapiens Oryza sativa |
782 849 |
92 |
28 |
2e-97 |
Рисунок 5. Карта локального сходства P06396.1 vs B8AY58.1
|
Рисунок 6. Карта локального сходства P06396.1 vs B8AY58.1 с пометками
|
Замечания: При выравнивании BLAST установлены параметры Expect threshold = 1e-05 и Word size = 2. По горизонтальной оси - гельзолин, вертикальной - виллин. Цифры в комментарии приблизительные - из рисунков.
Комментарий: Для начала для упрощения можно сказать, что гельзолин в позициях 60-770 и виллин 1-720 составляют выравнивание почти по всей длине (92%) -
самая длинная диагональ. При этом гельзолин 440-770 можно выровнять с виллином 1-340 и гельзолин 60-400
с виллином 360-720. То есть, если собрать кусочки воедино, получаем, что на участке, соответсвующем главной диагонали
если 2 похожих, возможно, дуплицированных куска, с нашем случае это одинаковые домены гельзолина (A на рис. 6).
Также мы видим, что эти похожие участки не находятся ровно друг за другом, а между ними есть небольшие отрезки белка, в которых локальное выравнивание не прошло (k, m, n и x, y, z).
Можно подумать, что на участке m произошла делеция или вставка, потому что пробел в главной диагонали слишком явный. Но, обращаясь к рисунку 3 с доменами, мне всё-таки кажется, что это вставка между доменами.
Источники
[0] BLAST
[1] UniProtKB/Swiss-Prot: P06396.1
[2] G.Isenberg . Actin-binding proteins - lipid interactions, 1991
[3] Pfam, Protein: GELS_HUMAN (P06396)
[4] Matsudaira P., Janmey P. Pieces in the actin-severing protein puzzle. Cell, 1988
[5] Pfam, Protein: VLN1_ORYSI (B8AY58)
|