Практикум 4. Выравнивание последовательностей

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
GTPase ObgE/CgtA* OBG_ECOLI OBG_BACSU 849.5 39.0% 57.0% 74 6
Chorismate synthase AROC_ECOLI AROC_BACSU 509.5 35.1% 51.1% 59 16
Orotate phosphoribosyltransferase PYRE_ECOLI PYRE_BACSU 123 23.1% 38.9% 65 12

Таблица 2. Локальное парное выравнивание гомологичных белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
GTPase ObgE/CgtA* OBG_ECOLI OBG_BACSU 856.5 48.4% 68.9% 8 3 87,9% 80,1%
Chorismate synthase AROC_ECOLI AROC_BACSU 518.5 36.9% 54.4% 39 12 93,4% 93,8%
Orotate phosphoribosyltransferase PYRE_ECOLI PYRE_BACSU 143 30.1% 48.3% 32 6 59,7% 58,7%
*Для сенной палочки GTPase Obg.

Результат применения программ выравнивания к неродственным белкам

Таблица 3. Глобальное и локальное выравнивание белков PABA_ECOLI и TAPA_BACSU*
Alignment type Score % Identity % Similarity Gaps Coverage 1 Coverage 2
needle 8 0.2% 0.5% 426 - -
water 31 36.4% 40.9% 0 11,8% 8,7%
*Полные названия белков: aminodeoxychorismate synthase component 2 и tasA anchoring/assembly protein, соответственно.

Как можно видеть, выравнивание неродственных белков дало результаты, заметно отличающиеся от результатов выравнивания гомологичных последовательностей: процент идентичности и схожести при глобальном выравнивании исчезающе мал, что неудивительно. При этом локальное выравнивание все же дало более-менее схожий участок, хотя и довольно короткий. Это говорит о том, что при анализе на гомологичность белков стоит сначала использовать глобальное выравнивание, чтобы увидеть картину в целом.

Множественное выравнивание белков

Я провела множественное выравнивание следующих семи последовательностей: Всего в базе данных Swiss-Prot 700 аннотированных последовательностей с мнемоникой AROC.

Для того, чтобы построить множественное выравнивание, я нашла семь аннотированных последовательностей белков с одинаковой мнемоникой функции в базе данных Swiss-Prot. Далее я загрузила их ID в UniProt Sequence Fetcher в JalView и построила выравнивание с помощью программы Muscle with Defaults. Получившееся выравнивание можно скачать по следующей гиперссылке.

Белки хорошо выровнялись. Поскольку есть довольно много консервативных участков: с 10 по 71, с 102 по 120, с 133 по 142, с 146 по 209, с 219 по 224, с 232 по 328, с 336 по 419 столбец, можно судить о том, что белки гомологичны. Также можно заметить, что третья и четвертая последовательность (AROC_DEIRA и AROC_BACSU) более схожи друг с другом, чем с другими белками, а последняя (AROC_RHOBA) немного выделяется на фоне остальных.

Выравнивание ПЭТазы с ее гомологом

Я провела выравнивание ПЭТазы с белком другого прокариотического организма, выполняющего схожую функцию.

Таблица 4. Глобальное выравнивание белков PETH_IDESA и PETH_UNKP
ID 1 ID 2 Score % Identity % Similarity Gaps Indels
PETH_IDESA PETH_UNKP 622 44.7% 59.5% 35 7

Поскольку для белков уже 20-25% идентичности свидетельствует о гомологии, выровненные мной белки с процентом идентичности 44,7% с большой вероятностью являются гомологами. Также в пользу этого предположения говорит относительно небольшое количество инделей и большой вес выравнивания.

Параметры программ needle и water

При запуске программ water и needle без опции -auto запрашиваются два параметра: штраф за открытие гэпа (gap opening penalty) и штраф за удлинение гэпа (gap extension penalty). Смысл этих штрафов заключается в том, чтобы разграничить случаи появления первого гэпа и удлинения инделя: за удлинение вычитается меньший штраф, так как появление нескольких подряд идущих гэпов (инделя) более вероятно, чем появление нескольких отделтных гэпов. Таким образом, программа будет строить выравнивание так, чтобы по возможности слить гэпы.

Я сравнила выдачи программ при одинаковом штрафе за удлинение (0,5) и разных штрафах за открытие (10 и 20). В первом случае при применении программы needle было семь инделей, во втором же только четыре. Сама картина выравнивания при этом тоже, естественно, изменилась: сопоставления букв оказались разными. Общее количество гэпов стало меньше на 14, вес также уменьшился (542,5). Таким образом, при увеличении штрафа за открытие наиболее оптимальным оказалось выравнивание с меньшим количеством инделей. Напротив, когда я уменьшила штраф за открытие до 5, отдельных гэпов (именно гэпов, не инделей) стало не четыре, как при значении штрафа, равном 10, а пять. Кстати, вес при этом увеличился (675,5), а количество гэпов понизилось до 31.

На этот раз я сравнивала выдачи water при одинаковом штрафе за открытие и разных штрафах за удлинение (0,5 и 1). Количество гэпов осталось неизменным (20), вес в первом случае был незначительно выше, 636 и 630, соответственно. При этом оба выравнивания выглядели одинаково. Когда я выставила значение штрафа за удлинение, равное 0,25, картина выравниваний также не изменилась и количество гэпов осталось равным 20. Изменился опять же только вес (639). Даже когда я понизила штраф за удлинения до 0, ничего, кроме веса (он стал равен 642), не изменилось.