Практикум 11. Выравнивание последовательностей.

Я создал два файла с белками кишечной и сенной палочек следующими командами:

infoseq sw:'*_ECOLI' -only -name -noheading -out ECOLI.txt

infoseq sw:'*_BACSU' -only -name -noheading -out BACSU.txt

Далее с помощью скрипта, написанного на Python, я получил список белков данных бактерий с одинаковой мнемоникой функции. Из полученных мнемоник для дальнейшей работы я выбрал 3: SSUB, TADA, SYS.

Результаты глобального парного выравнивания трёх пар белков представлены в таблице 1.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndels
Aliphatic sulfonates import ATP-binding protein SsuBSSUB_ECOLISSUB_BACSU349.033.353.711.111
tRNA-specific adenosine deaminaseTADA_ECOLITADA_BACSU332.541.961.13.62
Serine--tRNA ligaseSYS_ECOLISYS_BACSU1093.551.667.12.14

Результаты локального парного выравнивания трёх пар белков представлены в таблице 2.

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndels% Coverage1% Coverage2
Aliphatic sulfonates import ATP-binding protein SsuBSSUB_ECOLISSUB_BACSU358.537.759.35.6687.8488.24
tRNA-specific adenosine deaminaseTADA_ECOLITADA_BACSU337.044.464.10091.6295.03
Serine--tRNA ligaseSYS_ECOLISYS_BACSU1095.552.167.51.9399.3099.06

Результаты применения программ выравнивания к неродственным белкам

Результаты глобального парного выравнивания неродственной пары белков представлены в таблице 3.

Таблица 3. Характеристики глобального парного выравнивания неродственной пары белков
Protein Name 1Protein Name 2ID 1ID 2Score% Identity% SimilarityGapsIndels
Trans-2-enoyl-CoA reductase [NADH]Serine--tRNA ligaseFABV_TREDESYS_ECOLI45.06.211.177.813

Результаты глобального парного выравнивания неродственной пары белков представлены в таблице 4.

Таблица 4. Характеристики глобального парного выравнивания неродственной пары белков
Protein Name 1Protein Name 2ID 1ID 2Score% Identity% SimilarityGapsIndels% Coverage1% Coverage2
Trans-2-enoyl-CoA reductase [NADH]Serine--tRNA ligaseFABV_TREDESYS_ECOLI52.518.432.535.4747.8636.98

Множественное выравнивание белков

Для последующего выравнивания я выбрал мнемонику функции "TADA"(tRNA-specific adenosine deaminase). В Swiss-Prot нашлось 25 белков с такой мнемоникой. Кроме TADA_ECOLI и TADA_BACSU были выбраны следующие 5 белков: TADA_BUCAP, TADA_STRP6, TADA_HAEIN, TADA_STAAM и TADA_SHIFL.

Множественное выравнивание было проведено с помощью программы muscle, после чего полученный .fasta файл был импортирован в Jalview (проект доступен для скачивания по ссылке).

Разброс длины белков невелик - длины варьируются в диапазоне от 151 до 173 аминокислот. В выравнивании видны длинные консервативные блоки (в районе от 60 до 151 аминокислоты). Исходя из этого можно говорить о том, что все белки, учавствующие в выравнивании гомологичны. Отдельно стоит отметить последовательности TADA_ECOLI и TADA_SHIFL, принадлежащие, соответственно бактериям Escherichia coli и Shigella flexneri (обе бактерии входят в семейство Enterobacteriaceae) - эти последовательности идентичны на 100% согласно выравниванию, полученному с помощью программы needle.

Рис. 1. Результаты выравнивания TADA_ECOLI и TADA_SHIFL, полученные с использованием команды needle.