Jalview

Практикум 4. Выравнивание последовательностей

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков

Protein Name	ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels
GTPase ObgE/CgtA*	OBG_ECOLI	OBG_BACSU	849.5	39.0%	57.0%	74	6
Chorismate synthase	AROC_ECOLI	AROC_BACSU	509.5	35.1%	51.1%	59	16
Orotate phosphoribosyltransferase	PYRE_ECOLI	PYRE_BACSU	123	23.1%	38.9%	65	12

Таблица 2. Локальное парное выравнивание гомологичных белков

Protein Name	ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels	Coverage 1	Coverage 2
GTPase ObgE/CgtA*	OBG_ECOLI	OBG_BACSU	856.5	48.4%	68.9%	8	3	87,9%	80,1%
Chorismate synthase	AROC_ECOLI	AROC_BACSU	518.5	36.9%	54.4%	39	12	93,4%	93,8%
Orotate phosphoribosyltransferase	PYRE_ECOLI	PYRE_BACSU	143	30.1%	48.3%	32	6	59,7%	58,7%

*Для сенной палочки GTPase Obg.

Результат применения программ выравнивания к неродственным белкам

Таблица 3. Глобальное и локальное выравнивание белков PABA_ECOLI и TAPA_BACSU*
Alignment type	Score	% Identity	% Similarity	Gaps	Coverage 1	Coverage 2
needle	8	0.2%	0.5%	426	-	-
water	31	36.4%	40.9%	0	11,8%	8,7%

*Полные названия белков: aminodeoxychorismate synthase component 2 и tasA anchoring/assembly protein, соответственно.

Как можно видеть, выравнивание неродственных белков дало результаты, заметно отличающиеся от результатов выравнивания гомологичных последовательностей: процент идентичности и схожести при глобальном выравнивании исчезающе мал, что неудивительно. При этом локальное выравнивание все же дало более-менее схожий участок, хотя и довольно короткий. Это говорит о том, что при анализе на гомологичность белков стоит сначала использовать глобальное выравнивание, чтобы увидеть картину в целом.

Множественное выравнивание белков

Я провела множественное выравнивание следующих семи последовательностей:

AROC_ECOLI (Chorismate synthase)
AROC_BACSU
AROC_BRADU
AROC_DEIRA
AROC_LEPIN
AROC_PSEAE
AROC_RHOBA

Всего в базе данных Swiss-Prot 700 аннотированных последовательностей с мнемоникой AROC.

Для того, чтобы построить множественное выравнивание, я нашла семь аннотированных последовательностей белков с одинаковой мнемоникой функции в базе данных Swiss-Prot. Далее я загрузила их ID в UniProt Sequence Fetcher в JalView и построила выравнивание с помощью программы Muscle with Defaults. Получившееся выравнивание можно скачать по следующей гиперссылке.

Белки хорошо выровнялись. Поскольку есть довольно много консервативных участков: с 10 по 71, с 102 по 120, с 133 по 142, с 146 по 209, с 219 по 224, с 232 по 328, с 336 по 419 столбец, можно судить о том, что белки гомологичны. Также можно заметить, что третья и четвертая последовательность (AROC_DEIRA и AROC_BACSU) более схожи друг с другом, чем с другими белками, а последняя (AROC_RHOBA) немного выделяется на фоне остальных.

Выравнивание ПЭТазы с ее гомологом

Я провела выравнивание ПЭТазы с белком другого прокариотического организма, выполняющего схожую функцию.

Таблица 4. Глобальное выравнивание белков PETH_IDESA и PETH_UNKP
ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels
PETH_IDESA	PETH_UNKP	622	44.7%	59.5%	35	7

Поскольку для белков уже 20-25% идентичности свидетельствует о гомологии, выровненные мной белки с процентом идентичности 44,7% с большой вероятностью являются гомологами. Также в пользу этого предположения говорит относительно небольшое количество инделей и большой вес выравнивания.

Параметры программ needle и water

При запуске программ water и needle без опции -auto запрашиваются два параметра: штраф за открытие гэпа (gap opening penalty) и штраф за удлинение гэпа (gap extension penalty). Смысл этих штрафов заключается в том, чтобы разграничить случаи появления первого гэпа и удлинения инделя: за удлинение вычитается меньший штраф, так как появление нескольких подряд идущих гэпов (инделя) более вероятно, чем появление нескольких отделтных гэпов. Таким образом, программа будет строить выравнивание так, чтобы по возможности слить гэпы.

Штраф за открытие

Я сравнила выдачи программ при одинаковом штрафе за удлинение (0,5) и разных штрафах за открытие (10 и 20). В первом случае при применении программы needle было семь инделей, во втором же только четыре. Сама картина выравнивания при этом тоже, естественно, изменилась: сопоставления букв оказались разными. Общее количество гэпов стало меньше на 14, вес также уменьшился (542,5). Таким образом, при увеличении штрафа за открытие наиболее оптимальным оказалось выравнивание с меньшим количеством инделей. Напротив, когда я уменьшила штраф за открытие до 5, отдельных гэпов (именно гэпов, не инделей) стало не четыре, как при значении штрафа, равном 10, а пять. Кстати, вес при этом увеличился (675,5), а количество гэпов понизилось до 31.

Штраф за удлинение

На этот раз я сравнивала выдачи water при одинаковом штрафе за открытие и разных штрафах за удлинение (0,5 и 1). Количество гэпов осталось неизменным (20), вес в первом случае был незначительно выше, 636 и 630, соответственно. При этом оба выравнивания выглядели одинаково. Когда я выставила значение штрафа за удлинение, равное 0,25, картина выравниваний также не изменилась и количество гэпов осталось равным 20. Изменился опять же только вес (639). Даже когда я понизила штраф за удлинения до 0, ничего, кроме веса (он стал равен 642), не изменилось.