Построение выравниваний белков

1. Глобальное парное выравнивание гомологичных белков

Для сравнения белков необходимо иметь их идентификаторы. Получены идентификаторы всего протеома E. coli по команде:

infoseq 'sw:*_ECOLI' -only -name -out ECOLI.txt

Аналоично - с протеомом B. subtilis

Затем среди идентификаторов были найдены белки с одинаковой мнемоникой функции; найдены рекомендуемые имена, например:

entret 'sw:ACKA_ECOLI' -filter | grep ^DE

После этого были произведены выравнивания трех пар белков в needle:

needle 'sw:ACKA_ECOLI' 'sw:ACKA_BACSU' ACKA.needle -auto

По полученным данным была составлена таблица 1:

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Acetate kinase ACKA_ECOLI ACKA_BACSU 821 43 63,6 23 5
Aconitate hydratase A ACNA_ECOLI ACNA_BACSU 2647,5 56,4 71,7 18 3
DNA repair protein RadA RADA_ECOLI RADA_BACSU 1067,5 46,8 66 18 4

2. Локальное парное выравнивание гомологичных белков

Эти же пары белков были выровнены в water командой

water 'sw:ACKA_ECOLI' 'sw:ACKA_BACSU' ACKA.water -auto

Результаты представлены в таблице 2:

Таблица 2. Характеристики локального парного выравнивания гомологичных белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1, % Coverage 2, %
Acetate kinase ACKA_ECOLI ACKA_BACSU 823,5 43,3 64,2 21 6 98,25 98,73
Aconitate hydratase A ACNA_ECOLI ACNA_BACSU 2647,5 56,6 71,9 16 2 100 99,78
DNA repair protein RadA RADA_ECOLI RADA_BACSU 1075 47,4 67 14 2 98,7 98,69

При сравнении данных в таблицах можно заметить, что, во-первых, у локальных выравниваний счет зачастую больше, чем у глобальных, и равен лишь у наиболее похожих белков. Во-вторых, счет выравнивания прямо пропорционален Identity и Similarity, что вполне ожидаемо - чем более похожи белки, тем выше должен быть счет выравнивания. Наконец, у локальных выравниваний наблюдается тенденция к меньшему числу инделов, чем у глобальных.

3. Результат применения программ выравнивания к неродственным белкам

Была выбрана случайная пара белков c разными мнемониками функций. Их выравнивания были проведены по командам

needle 'sw:ACNA_ECOLI' 'sw:ACKA_BACSU' TEST.needle -auto

и

water 'sw:ACNA_ECOLI' 'sw:ACKA_BACSU' TEST.water -auto

Результаты приведены в таблице 3:

Таблица 3. Характеристики парных выравниваний негомологичных белков
Выравнивание ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1, % Coverage 2, %
Глобальное ACNA_ECOLI ACKA_BACSU 49 8,9 17,2 640 23 100 100
Локальное ACNA_ECOLI ACKA_BACSU 66,5 21,7 34,1 119 14 32 72,91

Сравнивания эти два выравнивания друг с другом и с предыдущими, можно заметить, что счет, Identity и Similarity у выравниваний негомологичных белков намного меньше, чем у выравниваний гомологичных белков. Примечательно так же то, что в локальном выравнивании покрытие белков оказывается значительно меньше, чем при таком же выравнивании гомологичных белков (где покрытие зачастую приближается к 100%), а значит использовать этот показатель для определения гомологичности, наряду с Identity, Similarity и тем более - со счетом выравнивания, вполне эффективно.

4. Множественное выравнивание белков и импорт в Jalview

DNA repair protein RadA. Мнемоника: RADA. Из всех белков с этой мнемоникой функции был составлен список при помощи команды:

infoseq 'sw:RADA_*' -only -name -out RADA-all.txt

Всего в списке оказалось 84 белка. Из них для множественного выравнивания с RADA_ECOLI и RADA_BACSU были отобраны RADA_MYCTO, RADA_RICTY, RADA_SULIA, RADA_METM5 и RADA_SALTY

Выравнивание было произведено в программе Jalview. В ней с помощью функции "fetch sequences" были найдены все выбранные белки, а затем с помощью "muscle" было проведено само множественное выравнивание.

Скачать проект Jalview

В наиболее консервативных местах схожи все белки и нельзя выделить белок, который выделялся бы везде, а значит можно сказать, что выравнивание прошло успешно. Это говорит также и о том, что все выбраннные белки с большой долей вероятности гомологичны. Можно также отметить, что в позициях 92-127 выравнивания схожесть белков максимальна, и можно предположить, что на этом участке и находится активный центр.