Глобальное и локальное выравнивание гомологичных белков
Для построения выравниваний были выбраны 3 пары белков из Escherichia coli и Bacillus subtilis. Характеристики выравниваний, полученных с помощью программ needle и water из пакета EMBOSS, представлены в таблицах 1 и 2 соответственно.
| Protein name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| DNA topoisomerase I | TOP1_ECOLI | TOP1_BACSU | 1353.5 | 34.7% | 47.8% | 214 | 18 |
| Large ribosomal subunit protein bL9 | RL9_ECOLI | RL9_BACSU | 195.0 | 33.1% | 54.3% | 4 | 4 |
| Superoxide dismutase [Mn] | SODM_ECOLI | SODM_BACSU | 639.5 | 58.9% | 66.5% | 10 | 3 |
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| DNA topoisomerase I | TOP1_ECOLI | TOP1_BACSU | 1357.0 | 40.2% | 55.4% | 94 | 16 | 85.0% | 99.7% |
| Large ribosomal subunit protein bL9 | RL9_ECOLI | RL9_BACSU | 195.0 | 33.3% | 54.7% | 3 | 3 | 100.0% | 99.3% |
| Superoxide dismutase [Mn] | SODM_ECOLI | SODM_BACSU | 639.5 | 59.1% | 66.8% | 8 | 3 | 100.0% | 100.0% |
Из этих результатов можно сделать вывод, что в каждой паре белки гомологичны почти по всей длине и демонстируют высокую степень сходства последовательностей. При рассмотрении глобального выравнивания ДНК-топоизомераз E.coli и B.subtilis можно заметить, что в нём присутствует несколько крупных инделей, поэтому локальное выравнивание оказывается достаточно информативным и повзоляет выделить наиболее консервативную часть белка. Для остальных 2 пар белков различия в характеристиках между локальным и глобальным выравниванием минимальны. Интересно также отметить, что выравнивания супероксиддисмутаз немного различаются: один участок в середине белка (со 153 по 162 аминокислоту в белке E.coli и со 155 по 158 в белке B.subtilis) выравнивается двумя программами по-разному. При этом оба варианта выравнивания этого участка имеют одинаковый score при использовании матрицы замен и штрафов за гэп по умолчанию, которые у обеих программ одинаковые. Мне неизвестно, каким образом needle и water в таком случае выбирают итоговый вариант, но, по-видимому, различными способами.
Выравнивание негомологичных белков
Для выравнивания последовательностей предположительно неродственных белков были выбраны белки с идентификаторами FTSQ_ECOLI и YQCA_ECOLI. Характеристики полученных выравниваний представлены в таблице 3; при использовании water покрытие для FTSQ_ECOLI составляет 13.0%, а для YQCA_ECOLI - 40.3%. В целом, сходство последовательностей очень низкое, а небольшие участки совпадений (вероятно, случайных) прерываются большими инделями, то есть данные выравнивания не имеют биологического смысла.
| Программа | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|
| needle | 16.5 | 8.3% | 14.5% | 249 | 11 |
| water | 38.5 | 20.0% | 36.9% | 34 | 3 |
Множественное выравнивание
Выравнивание было построено для белков с мнемоникой SODM (Mn-супероксиддисмутаз) из бактерий Escherichia coli, Bacillus subtilis, Mycobacterium avium, Listeria ivanovii, Thermus aquaticus, Deinococcus radiodurans (strain ATCC 13939) и археи Haloarcula hispanica; всего в Swiss-Prot был найден 151 белок с этой мнемоникой. Выравнивание проводилось в Jalview программой Muscle (with Defaults) и доступно в виде проекта Jalview по ссылке. В последовательностях встречаются высококонсервативные участки, как, например, в колонках выравнивания с 80 по 88, со 134 по 141 и со 173 по 196. Кроме того, во всех белках бактерий консервативны участки, соответствующие колонкам с 14 по 34 и с 199 по 205, а у белка из H.hispanica они отсутствуют (вместе с остатками, предшествующими первому участку и следующими после второго), из-за чего создаётся впечатление, что при аннотации генома последовательность белка была определена неверно.