Построение выравниваний белков
1. Глобальное парное выравнивание гомологичных белков
Для сравнения белков необходимо иметь их идентификаторы. Получены идентификаторы всего протеома E. coli по команде:
infoseq 'sw:*_ECOLI' -only -name -out ECOLI.txt
Аналоично - с протеомом B. subtilis
Затем среди идентификаторов были найдены белки с одинаковой мнемоникой функции; найдены рекомендуемые имена, например:
entret 'sw:ACKA_ECOLI' -filter | grep ^DE
После этого были произведены выравнивания трех пар белков в needle:
needle 'sw:ACKA_ECOLI' 'sw:ACKA_BACSU' ACKA.needle -auto
По полученным данным была составлена таблица 1:
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Acetate kinase | ACKA_ECOLI | ACKA_BACSU | 821 | 43 | 63,6 | 23 | 5 |
Aconitate hydratase A | ACNA_ECOLI | ACNA_BACSU | 2647,5 | 56,4 | 71,7 | 18 | 3 |
DNA repair protein RadA | RADA_ECOLI | RADA_BACSU | 1067,5 | 46,8 | 66 | 18 | 4 |
2. Локальное парное выравнивание гомологичных белков
Эти же пары белков были выровнены в water командой
water 'sw:ACKA_ECOLI' 'sw:ACKA_BACSU' ACKA.water -auto
Результаты представлены в таблице 2:
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1, % | Coverage 2, % |
---|---|---|---|---|---|---|---|---|---|
Acetate kinase | ACKA_ECOLI | ACKA_BACSU | 823,5 | 43,3 | 64,2 | 21 | 6 | 98,25 | 98,73 |
Aconitate hydratase A | ACNA_ECOLI | ACNA_BACSU | 2647,5 | 56,6 | 71,9 | 16 | 2 | 100 | 99,78 |
DNA repair protein RadA | RADA_ECOLI | RADA_BACSU | 1075 | 47,4 | 67 | 14 | 2 | 98,7 | 98,69 |
При сравнении данных в таблицах можно заметить, что, во-первых, у локальных выравниваний счет зачастую больше, чем у глобальных, и равен лишь у наиболее похожих белков. Во-вторых, счет выравнивания прямо пропорционален Identity и Similarity, что вполне ожидаемо - чем более похожи белки, тем выше должен быть счет выравнивания. Наконец, у локальных выравниваний наблюдается тенденция к меньшему числу инделов, чем у глобальных.
3. Результат применения программ выравнивания к неродственным белкам
Была выбрана случайная пара белков c разными мнемониками функций. Их выравнивания были проведены по командам
needle 'sw:ACNA_ECOLI' 'sw:ACKA_BACSU' TEST.needle -auto
и
water 'sw:ACNA_ECOLI' 'sw:ACKA_BACSU' TEST.water -auto
Результаты приведены в таблице 3:
Выравнивание | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1, % | Coverage 2, % |
---|---|---|---|---|---|---|---|---|---|
Глобальное | ACNA_ECOLI | ACKA_BACSU | 49 | 8,9 | 17,2 | 640 | 23 | 100 | 100 |
Локальное | ACNA_ECOLI | ACKA_BACSU | 66,5 | 21,7 | 34,1 | 119 | 14 | 32 | 72,91 |
Сравнивания эти два выравнивания друг с другом и с предыдущими, можно заметить, что счет, Identity и Similarity у выравниваний негомологичных белков намного меньше, чем у выравниваний гомологичных белков. Примечательно так же то, что в локальном выравнивании покрытие белков оказывается значительно меньше, чем при таком же выравнивании гомологичных белков (где покрытие зачастую приближается к 100%), а значит использовать этот показатель для определения гомологичности, наряду с Identity, Similarity и тем более - со счетом выравнивания, вполне эффективно.
4. Множественное выравнивание белков и импорт в Jalview
DNA repair protein RadA. Мнемоника: RADA. Из всех белков с этой мнемоникой функции был составлен список при помощи команды:
infoseq 'sw:RADA_*' -only -name -out RADA-all.txt
Всего в списке оказалось 84 белка. Из них для множественного выравнивания с RADA_ECOLI и RADA_BACSU были отобраны RADA_MYCTO, RADA_RICTY, RADA_SULIA, RADA_METM5 и RADA_SALTY
Выравнивание было произведено в программе Jalview. В ней с помощью функции "fetch sequences" были найдены все выбранные белки, а затем с помощью "muscle" было проведено само множественное выравнивание.
В наиболее консервативных местах схожи все белки и нельзя выделить белок, который выделялся бы везде, а значит можно сказать, что выравнивание прошло успешно. Это говорит также и о том, что все выбраннные белки с большой долей вероятности гомологичны. Можно также отметить, что в позициях 92-127 выравнивания схожесть белков максимальна, и можно предположить, что на этом участке и находится активный центр.