Практикум 11. Выравнивание последовательностей

1. Глобальное парное выравнивание гомологичных белков

Файлы с белками кишечной и сенной палочки были созданы командами:

infoseq sw:*_ECOLI -only -name -nohead -out ECOLI.txt
infoseq sw:*_BACSU -only -name -nohead -out BACSU.txt

Пары с совпадающими мнемониками были выбраны командой linux:

cut -f 1 -d '_' ECOLI.txt BACSU.txt | sort | uniq -d >> mnems.txt
Для дальнейшего анализа было выбрано 3 пары белков с мнемониками: APT, EFG, FRLB.

Рекоммендованное название белка было определено командой:

entret sw:<protein_id> -filter | grep ^DE
Рекоменованные названия для белка с мнемоникой FRLB отличаются для кишечной и сенной палочки. В таблице указано название для кишечной палочки, название для сенной: Fructosamine deglycase FrlB.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Adenine phosphoribosyltransferase APT_BACSU APT_ECOLI 441.5 50.3% 61.2% 13 3
Elongation factor G EFG_BACSU EFG_ECOLI 2156.0 61.3% 74.8% 14 2
Fructoselysine 6-phosphate deglycase FRLB_BACSU FRLB_ECOLI 365.0 28.3% 42.9% 54 9

2. Локальное парное выравнивание гомологичных белков

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Adenine phosphoribosyltransferase APT_BACSU APT_ECOLI 450.0 56.2% 66.7% 0 0 95.3% 88.5%
Elongation factor G EFG_BACSU EFG_ECOLI 2158.0 61.6% 74.9% 13 1 99.3% 99.4%
Fructoselysine 6-phosphate deglycase FRLB_BACSU FRLB_ECOLI 365.5 29.7% 45.8% 34 7 96.6% 90.9%

3. Результат применения программ выравнивания к неродственным белкам

Таблица 3. Характеристики глобального и локального выравнивания пары неродственных белков
Program ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Needle COAD_BACSU CYSK_ECOLI 25.5 10.7% 16.0% 242 12 - -
Water COAD_BACSU CYSK_ECOLI 37.5 21.4% 31.5% 59 11 96.0% 41.5%

Из таблиц 1,2 видно, что белки с одинаковыми мнемониками, вероятно, являются гомологичными, так как идентичность выше 25%. В то же время, сравнивая эти результаты с таблицей 3, видно, что выравнивания белков с различными мнемониками хуже по всем параметрам (ниже процент идентичных аминокислот, вес, больше гэпов, для локального выравнивания меньше покрытие).

4. Множественное выравнивание белков и импорт в Jalview

Для множесвенного выравнивания был выбран белок с рекомендуемым названием: Elongation factor G (фактор элонгации G). Белки с мнемоникой EFG были отобраны командой:

infoseq sw:EFG_* -only -name -nohead -out EFG_multiple.txt

Было найдено 672 белка (определено программой wc) Для множесвтенного выравнивания были выбраны 5 белков с id: EFG_FRASN, EFG_LISMC, EFG_LISIN, EFG_CARRP, EFG_SALEP. Множественное выравнивание строилось программой muscle, визуализировалось программой JalView. Файл JalView Project

Видно, что все белки выровнялись примерно в одинаковой степени хорошо, и, вероятно, являются гомологичными. В начале белка (координаты с 12 по 112 а.к.) есть несколько достаточно длинных консервативных участков, которые, возможно, важны для функционирования белковой молекулы.