Практикум 9. Выравнивание последовательностей

Глобальное и локальное выравнивание гомологичных белков

Для построения выравниваний были выбраны 3 пары белков из Escherichia coli и Bacillus subtilis. Характеристики выравниваний, полученных с помощью программ needle и water из пакета EMBOSS, представлены в таблицах 1 и 2 соответственно.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
DNA topoisomerase I TOP1_ECOLI TOP1_BACSU 1353.5 34.7% 47.8% 214 18
Large ribosomal subunit protein bL9 RL9_ECOLI RL9_BACSU 195.0 33.1% 54.3% 4 4
Superoxide dismutase [Mn] SODM_ECOLI SODM_BACSU 639.5 58.9% 66.5% 10 3
Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
DNA topoisomerase I TOP1_ECOLI TOP1_BACSU 1357.0 40.2% 55.4% 94 16 85.0% 99.7%
Large ribosomal subunit protein bL9 RL9_ECOLI RL9_BACSU 195.0 33.3% 54.7% 3 3 100.0% 99.3%
Superoxide dismutase [Mn] SODM_ECOLI SODM_BACSU 639.5 59.1% 66.8% 8 3 100.0% 100.0%

Из этих результатов можно сделать вывод, что в каждой паре белки гомологичны почти по всей длине и демонстируют высокую степень сходства последовательностей. При рассмотрении глобального выравнивания ДНК-топоизомераз E.coli и B.subtilis можно заметить, что в нём присутствует несколько крупных инделей, поэтому локальное выравнивание оказывается достаточно информативным и повзоляет выделить наиболее консервативную часть белка. Для остальных 2 пар белков различия в характеристиках между локальным и глобальным выравниванием минимальны. Интересно также отметить, что выравнивания супероксиддисмутаз немного различаются: один участок в середине белка (со 153 по 162 аминокислоту в белке E.coli и со 155 по 158 в белке B.subtilis) выравнивается двумя программами по-разному. При этом оба варианта выравнивания этого участка имеют одинаковый score при использовании матрицы замен и штрафов за гэп по умолчанию, которые у обеих программ одинаковые. Мне неизвестно, каким образом needle и water в таком случае выбирают итоговый вариант, но, по-видимому, различными способами.

Выравнивание негомологичных белков

Для выравнивания последовательностей предположительно неродственных белков были выбраны белки с идентификаторами FTSQ_ECOLI и YQCA_ECOLI. Характеристики полученных выравниваний представлены в таблице 3; при использовании water покрытие для FTSQ_ECOLI составляет 13.0%, а для YQCA_ECOLI - 40.3%. В целом, сходство последовательностей очень низкое, а небольшие участки совпадений (вероятно, случайных) прерываются большими инделями, то есть данные выравнивания не имеют биологического смысла.

Таблица 3. Характеристики выравнивания негомологичных белков
Программа Score % Identity % Similarity Gaps Indels
needle 16.5 8.3% 14.5% 249 11
water 38.5 20.0% 36.9% 34 3

Множественное выравнивание

Выравнивание было построено для белков с мнемоникой SODM (Mn-супероксиддисмутаз) из бактерий Escherichia coli, Bacillus subtilis, Mycobacterium avium, Listeria ivanovii, Thermus aquaticus, Deinococcus radiodurans (strain ATCC 13939) и археи Haloarcula hispanica; всего в Swiss-Prot был найден 151 белок с этой мнемоникой. Выравнивание проводилось в Jalview программой Muscle (with Defaults) и доступно в виде проекта Jalview по ссылке. В последовательностях встречаются высококонсервативные участки, как, например, в колонках выравнивания с 80 по 88, со 134 по 141 и со 173 по 196. Кроме того, во всех белках бактерий консервативны участки, соответствующие колонкам с 14 по 34 и с 199 по 205, а у белка из H.hispanica они отсутствуют (вместе с остатками, предшествующими первому участку и следующими после второго), из-за чего создаётся впечатление, что при аннотации генома последовательность белка была определена неверно.