Поиск по сходству. BLAST, E-value

Вернуться на страницу семестра

Гомологичность белков, найденных поиском BLAST

В данной работе использовалась программа BLAST. Страницу об белке дигуанилатциклазы AMD46139.1 из генома бактерии Bordetella holmesii H558 можно увидеть по ссылке. При помощи BLAST и нескольких поисков с изменением настроек были найдены белки с очень низким E-value и довольно высоким (больше 0,001). В таблице 1 можно узнать о белках, выбранных для последующего множественного выравния.

Таблица 1. Параметры парных локальных выравниваний с выбранными белками

ID/AC Name Organism Coverage, % Identity, % E-value Homology
WP_027896295.1 Diguanylate cyclase Pseudomonas thermotolerans 98 47 2e-135 Да
P0AA89.1 Diguanylate cyclase DosC Escherichia coli K-12 91 34 2e-82 Да
Q83KV7.1 Diguanylate cyclase DosC Shigella flexneri 70 32 4e-52 Да
Q8ZNT5.1 Cellulose synthesis regulatory protein Salmonella enterica 41 38 6e-30 Нет
P77334.1 Cyclic di-GMP phosphodiesterase Gmr Escherichia coli K-12 34 30 4e-10 Нет
P75801.1 Putative lipoprotein YliF Escherichia coli K-12 26 29 8e-07 Нет
XP_001618013.1 Hypothetical protein NEMVEDRAFT_v1g225592 Nematostella vectensis 10 53 0.18 Нет
XP_005764193.1 Hypothetical protein EMIHUDRAFT_459728 Emiliania huxleyi CCMP1516 33 29 0.56 Нет
EGT46470.1 Hypothetical protein EMIHUDRAFT_223522 Emiliania huxleyi CCMP1516 32 29 6.7 Нет

Я скачала участки локального выравнивания, которые выдала программа BLAST и провела множественное в программе JalView. Для выяснения гомологии нужно обратить внимание главным образом на следующие вещи: математическое ожидание E-value (чем меньше, тем лучше), количество консервативных позиций, инделей и гэпов в выравнивании, блоки во множественном выравнивании, также само название и сходство функций белков могут дать подсказку.
Блок достоверного выравнивания я определяла примерно по следующим критериям: нет гэпов, концевые позиции блока абсолютно консервативны или функционально консервативны, если в колонке свойства аминокислот резко отличаются, то считаю, что блок закончился, по количеству консервативных позиций и их соотношению к длине блока точных критериев я не устанавливала, и даже если бы установила, они были бы эмпирическими, поэтому ориентируюсь на общую достоверность блока, длина блока от 4 остатков.

Рис. 1. Множественное выравнивание с веделенными блоками

Оговорка: начальная последовательность нулевая, остальные в моём комментарий согласно положению в таблице 1. Первый блок в позициях 95-102 я выделила только на начальном и 3 следующих белках, он мне кажется очень достоверным, потому что почти все позиции консервативны, а глицин и аланин даже структурно очень похожи.
Следующие 2 блока 171-180 и 183-187 очень бы хотелось объединить в единый, но глутаминовая кислота имеет резко отличающиеся свойства от алифатических аминокислот, поэтому блоки разбиты. Но опять же, их близость друг к другу даёт дополнительную достоверность. В позиции 177-178 я посчитала нормальным оставить выбивающиеся функционально серин и глутаминовую кислоту в блоке, потому что свойства отличаются не так резко, а в случае замены глутамина на глутамат можно увидеть логику.
Блок 220-224 составлен из абсолютно консервативных позиций.
Единственные блоки, которые можно распространить на все выбранные последовательности (кроме шестой и дважды седьмой), это 301-304 и 335-338. В первой я посчитала функционально схожими алифатические аминокислоты, иминокислоту пролин и серин; во втором пришлось закрыть глаза на выбивающийся из общей картины фенилаланин в первой колонке.
Правдоподобными мне показались блоки 306-312 и 318-324 на первых 3 возможно гомологичных последовательностях. Здесь метионин, несмотря на полярность, объединён с лейцинами в 306, тирозин и фенилаланин объединены как ароматические, лизин и аргинин как положительно заряженные. Во втором блоке объединены валин, лейцин, изолейцин как алифатические, серин с аланином аналогично описанным ранее блокам, тирозин с гистидином, несмотря на отличающийся заряд объединены по ароматичности.
Последний блок 386-392 распространился на 5 из 9 выбранных белков (белок 3 не входит в блок), в позиции 391 выбивается цистеин, но я подумала, что, несмотря на полярность цистеина, эту колонку можно оставить в блоке. Если бы я оставила только первые 4 колонки, то блок бы распространился вертикально, но изолейцин и фенилаланин слишком разные, чтобы быть вместе в колонке блока.

Итого первые 3 белка бесспорно гомологи - они входят во все блоки, которых довольно много. Для остальных белков недостаточно оснований для предположения гомологичности, а 7 белок вообще не вошёл ни в один блок (изначально локальное выравнивание было очень коротким). Таким образом, оправдались ожидания, которые можно было сделать уже из таблицы по названиям белков - дигуанилатциклазы Pseudomonas thermotolerans, Escherichia coli K-12 и Shigella flexneri гомологичны дигуанилатциклазе Bordetella holmesii.

Скачать выравнивание задания 1

Крупные перестройки между парой белков, имеющих гомологичные участки (домены)

Для работы я выбрала белок гельзолин человека P06396 [1].

Рисунок 2. Гельзолин 1KCQ

Аминокислотная последовательность гельзолина

1 MAPHRPAPAL LCALSLALCA LSLPVRAATA SRGASQAGAP QGRVPEARPN 50 51 SMVVEHPEFL KAGKEPGLQI WRVEKFDLVP VPTNLYGDFF TGDAYVILKT 100 101 VQLRNGNLQY DLHYWLGNEC SQDESGAAAI FTVQLDDYLN GRAVQHREVQ 150 151 GFESATFLGY FKSGLKYKKG GVASGFKHVV PNEVVVQRLF QVKGRRVVRA 200 201 TEVPVSWESF NNGDCFILDL GNNIHQWCGS NSNRYERLKA TQVSKGIRDN 250 251 ERSGRARVHV SEEGTEPEAM LQVLGPKPAL PAGTEDTAKE DAANRKLAKL 300 301 YKVSNGAGTM SVSLVADENP FAQGALKSED CFILDHGKDG KIFVWKGKQA 350 351 NTEERKAALK TASDFITKMD YPKQTQVSVL PEGGETPLFK QFFKNWRDPD 400 401 QTDGLGLSYL SSHIANVERV PFDAATLHTS TAMAAQHGMD DDGTGQKQIW 450 451 RIEGSNKVPV DPATYGQFYG GDSYIILYNY RHGGRQGQII YNWQGAQSTQ 500 501 DEVAASAILT AQLDEELGGT PVQSRVVQGK EPAHLMSLFG GKPMIIYKGG 550 551 TSREGGQTAP ASTRLFQVRA NSAGATRAVE VLPKAGALNS NDAFVLKTPS 600 601 AAYLWVGTGA SEAEKTGAQE LLRVLRAQPV QVAEGSEPDG FWEALGGKAA 650 651 YRTSPRLKDK KMDAHPPRLF ACSNKIGRFV IEEVPGELMQ EDLATDDVML 700 701 LDTWDQVFVW VGKDSQEEEK TEALTSAKRY IETDPANRDR RTPITVVKQG 750 751 FEPPSFVGWF LGWDDDYWSV DPLDRAMAEL AA                    782

Гельзолин - белок цитоскелета, содержит три актин-связывающих участка [2]. В С-концевой половине молекулы гельзолина расположены Ca-чувствительный актин-связывающий сайт и Ca-связывающий участок молекулы (серые точки на рис. 3). Два других актин-связывающих участка расположены на N-конце молекулы.

Рисунок 3. Домены гельзолина [3]

Поиск BLAST по гельзолину выдал довольно интересные результаты: некоторые последовательности можно было выровнять с нашим белком несколькими способами, где одни выравнивания лучше, другие хуже. Я увидела это в Graphic Summary: некоторые полосы были 2 цветов (красный и розовый). К таким интересным белкам и принадлежал виллин из риса посевного (Oryza sativa). Виллин (95 кД) высоко гомологичен гельзолину. В отличие от гельзолина, в отсутствие кальция виллин обладает способностью сшивать актиновые филаменты. Эта его активность обеспечивается наличием дополнительной последовательности на C-конце, отсутствующей у гельзолина [4].

Рисунок 4. Домены виллина [5]

Таблица 2. Выравнивание гельзолина и виллина

ID/AC Name Organism Length Coverage, % Identity, % E-value
P06396.1
B8AY58.1
Gelsolin
Villin-1
Homo sapiens
Oryza sativa
782
849
92 28 2e-97

Рисунок 5. Карта локального сходства P06396.1 vs B8AY58.1

Рисунок 6. Карта локального сходства P06396.1 vs B8AY58.1 с пометками

Замечания: При выравнивании BLAST установлены параметры Expect threshold = 1e-05 и Word size = 2. По горизонтальной оси - гельзолин, вертикальной - виллин. Цифры в комментарии приблизительные - из рисунков.
Комментарий: Для начала для упрощения можно сказать, что гельзолин в позициях 60-770 и виллин 1-720 составляют выравнивание почти по всей длине (92%) - самая длинная диагональ. При этом гельзолин 440-770 можно выровнять с виллином 1-340 и гельзолин 60-400 с виллином 360-720. То есть, если собрать кусочки воедино, получаем, что на участке, соответсвующем главной диагонали если 2 похожих, возможно, дуплицированных куска, с нашем случае это одинаковые домены гельзолина (A на рис. 6). Также мы видим, что эти похожие участки не находятся ровно друг за другом, а между ними есть небольшие отрезки белка, в которых локальное выравнивание не прошло (k, m, n и x, y, z). Можно подумать, что на участке m произошла делеция или вставка, потому что пробел в главной диагонали слишком явный. Но, обращаясь к рисунку 3 с доменами, мне всё-таки кажется, что это вставка между доменами.





© Миронова Екатерина 2017 год