Выравнивания

Построение выравниваний белков

1. Глобальное парное выравнивание гомологичных белков

Для сравнения белков необходимо иметь их идентификаторы. Получены идентификаторы всего протеома E. coli по команде:

infoseq 'sw:*_ECOLI' -only -name -out ECOLI.txt

Аналоично - с протеомом B. subtilis

Затем среди идентификаторов были найдены белки с одинаковой мнемоникой функции; найдены рекомендуемые имена, например:

entret 'sw:ACKA_ECOLI' -filter | grep ^DE

После этого были произведены выравнивания трех пар белков в needle:

needle 'sw:ACKA_ECOLI' 'sw:ACKA_BACSU' ACKA.needle -auto

По полученным данным была составлена таблица 1:

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name	ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels
Acetate kinase	ACKA_ECOLI	ACKA_BACSU	821	43	63,6	23	5
Aconitate hydratase A	ACNA_ECOLI	ACNA_BACSU	2647,5	56,4	71,7	18	3
DNA repair protein RadA	RADA_ECOLI	RADA_BACSU	1067,5	46,8	66	18	4

2. Локальное парное выравнивание гомологичных белков

Эти же пары белков были выровнены в water командой

water 'sw:ACKA_ECOLI' 'sw:ACKA_BACSU' ACKA.water -auto

Результаты представлены в таблице 2:

Таблица 2. Характеристики локального парного выравнивания гомологичных белков
Protein Name	ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels	Coverage 1, %	Coverage 2, %
Acetate kinase	ACKA_ECOLI	ACKA_BACSU	823,5	43,3	64,2	21	6	98,25	98,73
Aconitate hydratase A	ACNA_ECOLI	ACNA_BACSU	2647,5	56,6	71,9	16	2	100	99,78
DNA repair protein RadA	RADA_ECOLI	RADA_BACSU	1075	47,4	67	14	2	98,7	98,69

При сравнении данных в таблицах можно заметить, что, во-первых, у локальных выравниваний счет зачастую больше, чем у глобальных, и равен лишь у наиболее похожих белков. Во-вторых, счет выравнивания прямо пропорционален Identity и Similarity, что вполне ожидаемо - чем более похожи белки, тем выше должен быть счет выравнивания. Наконец, у локальных выравниваний наблюдается тенденция к меньшему числу инделов, чем у глобальных.

3. Результат применения программ выравнивания к неродственным белкам

Была выбрана случайная пара белков c разными мнемониками функций. Их выравнивания были проведены по командам

needle 'sw:ACNA_ECOLI' 'sw:ACKA_BACSU' TEST.needle -auto

water 'sw:ACNA_ECOLI' 'sw:ACKA_BACSU' TEST.water -auto

Результаты приведены в таблице 3:

Таблица 3. Характеристики парных выравниваний негомологичных белков
Выравнивание	ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels	Coverage 1, %	Coverage 2, %
Глобальное	ACNA_ECOLI	ACKA_BACSU	49	8,9	17,2	640	23	100	100
Локальное	ACNA_ECOLI	ACKA_BACSU	66,5	21,7	34,1	119	14	32	72,91

Сравнивания эти два выравнивания друг с другом и с предыдущими, можно заметить, что счет, Identity и Similarity у выравниваний негомологичных белков намного меньше, чем у выравниваний гомологичных белков. Примечательно так же то, что в локальном выравнивании покрытие белков оказывается значительно меньше, чем при таком же выравнивании гомологичных белков (где покрытие зачастую приближается к 100%), а значит использовать этот показатель для определения гомологичности, наряду с Identity, Similarity и тем более - со счетом выравнивания, вполне эффективно.

4. Множественное выравнивание белков и импорт в Jalview

DNA repair protein RadA. Мнемоника: RADA. Из всех белков с этой мнемоникой функции был составлен список при помощи команды:

infoseq 'sw:RADA_*' -only -name -out RADA-all.txt

Всего в списке оказалось 84 белка. Из них для множественного выравнивания с RADA_ECOLI и RADA_BACSU были отобраны RADA_MYCTO, RADA_RICTY, RADA_SULIA, RADA_METM5 и RADA_SALTY

Выравнивание было произведено в программе Jalview. В ней с помощью функции "fetch sequences" были найдены все выбранные белки, а затем с помощью "muscle" было проведено само множественное выравнивание.

Скачать проект Jalview

В наиболее консервативных местах схожи все белки и нельзя выделить белок, который выделялся бы везде, а значит можно сказать, что выравнивание прошло успешно. Это говорит также и о том, что все выбраннные белки с большой долей вероятности гомологичны. Можно также отметить, что в позициях 92-127 выравнивания схожесть белков максимальна, и можно предположить, что на этом участке и находится активный центр.