Практикум 9. Программы парного выравнивания. Jalview

Глобальное парное выравнивание гомологичных белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Transcription-repair-coupling factor MFD_ECOLI MFD_BACSU 1839.0 34.7 54.7 153 31
Riboflavin synthase RISA_ECOLI RISA_BACSU 326.5 34.7 53.8 22 7
Large ribosomal subunit protein uL1 RL1_ECOLI RL1_BACSU 599.0 50.4 70.1 2 1

Локальное парное выравнивание гомологичных белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Transcription-repair-coupling factor MFD_ECOLI MFD_BACSU 1857.0 37.4 57.5 96 22 92.2 90.6
Riboflavin synthase RISA_ECOLI RISA_BACSU 326.5 35.8 55.5 15 6 100.0 96.7
Large ribosomal subunit protein uL1 RL1_ECOLI RL1_BACSU 600.0 52.0 71.8 0 0 97.0 97.0

Комментарии к выравниваниям

Глобальное выравнивание показывает гомологию исследуемых белковых пар по всей длине. Данный вывод подтверждается значительным весом выравнивания относительно длины последовательностей, существенным процентом идентичности и высокой степенью схожести аминокислотного состава. Локальное выравнивание, хотя и подтверждает их гомологию, не предоставляет дополнительной значимой информации. Можно заметить, что процент покрытия всех последовательностей достаточно большой (более 90.0%). Это также служит весомым доказательством их гомологии и указывает на высокую степень структурно-функциональной консервативности данных белков в процессе эволюции.

Результат применения программ выравнивания к неродственным белкам

Alingment ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Needle GPR_ECOLI KGUA_BACSU 24.5 10.0 21.7 188 11
Water GPR_ECOLI KGUA_BACSU 41.0 27.0 41.6 19 5 24.9 35.7

Названия белков из ECOLI: GPR_ECOLI — L-glyceraldehyde 3-phosphate reductase, KGUA_BACSU — Guanylate kinase.

Глобальное выравнивание отчетливо показывает, что данные белки не являются гомологичными по всей длине. На это указывает множество факторов: низкий вес выравнивания, процент идентичности менее 20%, низкий процент схожести, очень много гэпов и относительно маленькое количество инделей. Возникновение таких существенных делеций (или инсерций) довольно маловероятно. Неудивительно, что локальное выравнивание выявило больше предполагаемых гомологичных участков по сравнению с глобальным. Это можно объяснить тем, что метод локального выравнивания лучше распознает области сходства даже в случае расхождений в остальных частях последовательностей. Однако наличие данных только одного локального выравнивания не позволяет установить гомологию между данной парой белков, так как покрытие обеих последовательностей достаточно низкое. Поэтому данные совпадения могут быть случайными.

Множественное выравнивание белков и импорт в Jalview

Я решил выбрать мнемонику MFD, имя белка из ECOLI — Transcription-repair-coupling factor. Чтобы найти белки с похожей мнемоникой, был составлен следующий поисковый запрос в Uniprot KB: (id:MFD_*). Поиск выдал 33 результата. Для множественного выравнивания были выбраны следующие записи: MFD_RICPR (из бактерии Rickettsia prowazekii, филум Pseudomonadota), MFD_HAEIN (из бактерии Haemophilus influenzae, филум Pseudomonadota), MFD_STAAS (из бактерии Staphylococcus aureus, филум Bacillota), MFD_HELPY (из бактерии Helicobacter pylori, филум Campylobacterota) и MFD_MYCBO (из бактерии Mycobacterium bovis, филум Actinomycetota). Escherichia coli относится к филуму Pseudomonadota, а Bacillus subtilis — к Bacillota.

Выравнивание осуществлялось в самой программе JalView с помощью алгоритма Muscle with default и здесь же было визуализировано.

Файл с выравниванием.

После анализа множественного выравнивания можно сделать определенные выводы. Столбцы 1-545 (ближе к N-концам) в общем оказались достаточно плохо выровнены. Это может быть связано с тем, что бактерии, из которых были получены данные белки, относятся к разным систематическим группам. Однако последовательности, выделенные из бактерий одинаковых филумов (например, MFD_RICPR, MFD_HAEIN и MFD_ECOLI относятся к филуму Pseudomonadota) имеют гораздо больше похожих участков. Далее, ближе к C-концам, в общем выравнивание выявило довольно много локальных сходств (от 5 до 45 аминокислот), например, в столбцах 709-716, 841-848, 950-990, 1024-1060. Я захотел выяснить, с чем это может быть связано. Для этого я посмотрел в таблице локальных особенностей MFD_ECOLI, какие участки являются функционально значимыми, к примеру, какие участки могут участвовать в связывании лигандов. У MFD_ECOLI участок с 628 по 635 аминокислот отвечает за связывание молекулы АТФ. В столбцах 709-716 участки последовательностей исследуемых белков (что соответствует рассматриваемому АТФ-связывающему участку у MFD_ECOLI) идентичны, кроме одной позиции. Затем я решил посмотреть АТФ-связывающие участки у оставшихся исследуемых белков. Выяснилось, что все они находятся в пределах рассматриваемых столбцов. В связи с этим можно сделать вывод о том, что наиболее консервативными участками являются функционально значимые домены, такие как лиганд-связывающие сайты. Значит, данные регионы играют ключевую роль в работе белка и, вероятно, подвергаются эволюционному отбору, сохраняя свою структуру у данных организмов, относящихся к разным систематическим группам.