Практикум 9. Выравнивание как отражение эволюции. Программы парного выравнивания. Jalview

2. Глобальное парное выравнивание гомологичных белков

Для выполнения заданий практикума было необходимо скачать из UniProt два списка идентификаторов (ID) записей: всех аннотированных записей, чей идентификатор кончается на _ECOLI (из штамма K12 кишечной палочки) и всех аннотированных записей, чей идентификатор кончается на _BACSU (из штамма 168 сенной палочки).Итоговый файл с идентификаторами доступен по ссылке.

Затем нужно было сопоставить пары белков из двух списков, чьи идентификаторы Swiss-Prot имеют одинаковую мнемонику функции и выбрать из них три пары белков. Выровнять последовательности каждой пары программой needle при параметрах по умолчанию и заполнить таблицу.

Я выбрала мнемоники CORA, ERA, LUXS.

Таблица 1. Характеристики глобального парного выравнивания трех пар белков

Protein Name	ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels
Magnesium transport protein CorA	CORA_ECOLI	CORA_BACSU	175.5	17.9%	31.6%	159	13
GTPase Era	ERA_ECOLI	ERA_BACSU	600.5	39.3%	61.6%	8	5
S-ribosylhomocysteine lyase	LUXS_ECOLI	LUXS_BACSU	273.0	35.1%	52.9%	20	5

3. Локальное парное выравнивание гомологичных белков

Те же три пары белков были выровнены программой water (так же при параметрах по умолчанию). Результаты представлены в таблице 2.

Таблица 2. Характеристики локального парного выравнивания трех пар белков

Protein Name	ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels	Coverage 1	Coverage 2
Magnesium transport protein CorA	CORA_ECOLI	CORA_BACSU	191.5	23.2%	39.0%	93	12	87.3%	79.2%
GTPase Era	ERA_ECOLI	ERA_BACSU	603.5	40.3%	62.7%	7	4	97.0%	96.7%
S-ribosylhomocysteine lyase	LUXS_ECOLI	LUXS_BACSU	280.0	37.5%	55.6%	9	3	93.0%	96.8%

4. Комментарии к выравниваниям

Пара CORA_ECOLI и CORA_BACSU, транспортер магния CorA

Гомологичны ли белки по всей длине? Нет, так как глобальное выравнивание показывает очень низкий процент идентичности (17.9%) и огромное количество гэпов: 159 (при попытке выровнять белки по всей длине алгоритму пришлось вставить эти пропуски).

Есть ли гомологичные участки? Да, локальное выравнивание имеет покрытие 87.3% и 79.2% — то есть довольно много участков обоих белков попали в выровненные фрагменты. Хотя идентичность выросла несущественно (до 23.2%), количество гэпов значительно сократилось (93 vs 159). Это говорит о том, что гомологичные участки есть по всей длине, однако количество вставок/делеций все еще велико.

Информативно ли в данном конкретном случае локальное выравнивание по сравнению с глобальным? Да, локальное выравнивание немного информативнее. Оно выигрывает в том, что позволяет увидеть сходство (если оно есть), не искажённое принудительным выравниванием негомологичных фрагментов (что неизбежно происходит из-за выравнивания по всей длине). Более высокий скор (191.5 vs 175.5) и более высокий процент идентичности также свидетельствуют в пользу этого утверждения.

Почему некоторые пары букв сопоставлены по-разному? Алгоритм глобального выравнивания (Needleman-Wunsch) выравнивает последовательности от начала и до конца, поэтому он вынужденно вставляет множественные гэпы, если надо «растянуть» выравнивание. Алгоритм локального выравнивания (Smith-Waterman) может игнорировать проблемные участки и фокусироваться на тех, где сходство выше. Поэтому локальное выравнивание «видит» гомологию там, где глобальное «разрывает» её гэпами.

Пара ERA_ECOLI и ERA_BACSU, ГТФ-связывающий белок Era

Гомологичны ли белки по всей длине? Да. Глобальное выравнивание показывает хороший процент идентичности (39.3%) и высокий процент схожести (61.6%) при малом количестве гэпов (8). Это классические признаки гомологии по всей длине.

Есть ли гомологичные участки? Да, безусловно есть, и они составляют практически весь белок. Покрытие в локальном выравнивании близко к 100% (97% и 96.7%), что при вышеупомянутых процентах идентичности и схожести подтверждает, что белки гомологичны от начала и до конца.

Информативно ли локальное выравнивание? Оно информативно, но на мой взгляд в данном случае глобальное выравнивание информативнее. Поскольку белки гомологичны по всей длине, нет смысла отбрасывать концевые участки (что приводит к покрытию менее 100%). Да, локальное выравнивание даёт некоторое незначительное улучшение показателей идентичности (40.3% vs 39.3%) и схожести (62.7% vs 61.6%), но теряет при этом несколько аминокислот с концов.

Почему некоторые пары букв сопоставлены по-разному? Различия минимальны и касаются только концевых участков. Алгоритм локального выравнивания отбрасывает ~3% (в конкретно этой паре последовательностей) длины с каждого конца, где нет хорошего сходства, чтобы немного повысить общий вес выравнивания. Глобальный алгоритм сохраняет эти участки, но вставляет гэпы.

Пара LUXS_ECOLI и LUXS_BACSU, S-рибозил-гомоцистеин лиаза

Гомологичны ли белки по всей длине? Скорее да, чем нет. Но стоит отметить, что хотя процент идентичности в глобальном выравнивании в целом хороший (35.1%), количество гэпов (20) значительно выше, чем у ERA (8), что указывает на наличие негомологичных участков.

Есть ли гомологичные участки? Да, локальное выравнивание имеет покрытие 93.0% и 96.8%, и это означает, что лишь 3-7% длины каждого белка оказались негомологичны (вследствие чего эти фрагменты были исключены из выравнивания). При этом идентичность выросла с 35.1% до 37.5%, а количество гэпов сократилось вдвое (20 vs 9).

Информативно ли локальное выравнивание? На мой взгляд да, локальное выравнивание информативно. Оно правильно идентифицирует, какие участки белков являются эволюционно консервативными, и не загромождает результат вставками гэпов.

Почему некоторые пары букв сопоставлены по-разному? Причины и следствия такие же, как описано ранее: при глобальном выравнивании алгоритм вынужденно вставляет 20 гэпов, чтобы сопоставить негомологичные вставки (так выравнивает по всей длине). Поэтому пары букв, которые в локальном выравнивании стоят друг под другом, в глобальном могут быть разнесены гэпами.

5. Результат применения программ выравнивания к неродственным белкам

Для выполнения задания было необходимо выбрать какую-нибудь случайную пару белков с разными мнемониками функций и провести их глобальное и локальное выравнивание. Я выбрала белки с Entry Name TOLA_ECOLI (Tol-Pal system protein TolA) и OTC_BACS (Ornithine carbamoyltransferase).

Таблица 3. Характеристики парного выравнивания белков с различными мнемониками функций

	Глобальное (needle)	Локальное (water)
Length	502	212
Identity	65/502 (12.9%)	45/212 (21.2%)
Similarity	101/502 (20.1%)	68/212 (32.1%)
Gaps	264/502 (52.6%)	53/212 (25.0%)
Score	38.5	48.5
Indels	16	8
Coverage 1	–	39%
Coverage 2	–	64.9%

Глобальное выравнивание (needle)

Глобальное выравнивание показывает очень низкую идентичность (12.9%) и огромное количество гэпов (52.6%). Это означает, что при попытке выровнять белки по всей длине алгоритму пришлось вставить более половины позиций как пропуски. Вес выравнивания равен 38.5, что очень мало (вес случайного выравнивания двух неродственных белков обычно близок к нулю или отрицателен). Положительное значение скора 38.5 говорит о том, что небольшие участки сходства всё же есть, но общая гомология отсутствует.

Локальное выравнивание (water)

Локальное выравнивание показывает улучшенные показатели: идентичность выросла до 21.2%, схожесть до 32.1%, а доля гэпов сократилась вдвое (с 52.6% до 25.0%). Однако вес выравнивания все также крайне низок (48.5). Можно сделать вывод, что локальный алгоритм смог найти компактные участки с относительно хорошим сходством.

Покрытие: TOLA_ECOLI покрыт на 39%, OTC_BACSU покрыт на 64.9%, то есть второй белок на две трети включен в выровненный фрагмент (но этот перекос связан с тем, что сам по себе OTC_BACSU просто короче, чем TOLA_ECOLI (319 а.о. vs 421 а.о.), и при локальном выравнивании логично «отрезать» от более длинного). Стоит сказать, что для поиска гомологии между потенциально неродственными белками локальное выравнивание значительно информативнее глобального, так как способно обнаружить консервативные домены даже при отсутствии гомологии по всей длине.

6. Множественное выравнивание белков и импорт в Jalview

Для мнемоники функций LUXS (рекомендованное название S-рибозил-гомоцистеин лиаза) в Swiss-Prot c помощью поискового запроса (id:LUXS*) AND (reviewed:true) было найдено 289 белков, из которых я выбрала 5 претендентов (помимо белков из ECOLI и BACSU) для выполнения множественного выравнивания: LUXS_SALTY, LUXS_HELPS, LUXS_SHEFN, LUXS_CLOPS, LUXS_PROMI.

Согласно указаниям по выполнению практикума, я создала текстовый файл luxs.txt" со строками:

sw:luxs_ecoli
sw:luxs_bacsu
sw:luxs_salty
sw:luxs_helps
sw:luxs_shefn
sw:luxs_clops
sw:luxs_promi

Затем командой seqret @luxs.txt luxs.fasta создала файл в fasta-формате и запустила программу выравнивания muscle на kodomo:

muscle -align luxs.fasta -output luxs_alignment.fasta

Полученное выравнивание я импортировала в Jalview (предварительно установленную на домашнем компьютере). В Jalview я раскрасила колонки выравнивания по проценту идентичности. Итоговый проект доступен по ссылке.

Ниже можно увидеть множественное выравнивание семи отобранных белковых последовательностей, раскрашенное по проценту идентичности.

Гомологичны ли белки данного выравнивания? Да, все семь белков гомологичны. Это в целом видно из самого выравнивания: все последовательности выровнены друг относительно друга без крупных сдвигов/протяженных инделей. Что вероятно свидетельствует о некоторой закономерности в их строении: наличии одинакового количества ключевых блоков (отличающихся большей консервативностью), расположенных в одном порядке.

В выравнивании есть длинные фрагменты, где аминокислоты совпадают у всех или почти всех видов. Например:

Участок AP(А/Y)VR(V/*)A (20-26) — похож у всех;
Участок FDLRF(C/*)(Q/*)PNK (40-49) — тоже практически одинаковый у всех;
Участок GIHTLEHL(F/*)A(G/*)(F/*)(M/I)R (56-69) — почти одинаков у всех семи белков;
Участок IDISPMGC(R/*)TGFY (81-93) — высоко консервативный, практически одинаков у всех;
Участок IP(E/A)(L/*)N(E/V)(Y/*)QCG (125-134) — также очень похож у всех.

Это не все участки, но думаю, что для обоснования моей точки зрения касательно гомологичности белков по всей длине вполне достаточно.

Индели тоже относительно локализованы в одних и тех же регионах — преимущественно на N-конце и в C-концевой части, что может быть объяснено их меньшей функциональной значимостью, а следовательно, и большей вариабельностью.

У HELPS (Helicobacter pylori), CLOPS (Clostridium perfringens), BACSU (Bacillus subtilis) процент идентичности ниже, количество гэпов больше, то есть выровнялись они в целом хуже. Это ожидаемо, если рассмотреть организмы с точки зрения таксономии и эволюции. Оба грамположительных вида (BACSU и CLOPS) относятся к типу Bacillota, но к разным классам: Bacilli и Clostridia соответственно. HELPS относится к отдельному типу Campylobacterota, который является одной из древнейших ветвей. Чем больше эволюционное расстояние между видами, тем больше независимо накопленных мутаций может возникать. Как это отражается в выравнивании? Больше гэпов, ниже процент идентичности, хуже качество выравнивания на периферийных участках.

У SHEFN (Shewanella frigidimarina), ECOLI, SALTY (Salmonella enterica), PROMI (Proteus mirabilis), относящимся к классу Gammaproteobacteria, выравнивание выполнено очень хорошо. Что в принципе логично, поскольку все четыре вида являются эволюционно близкими родственниками (расположены в пределах одного таксономического класса).

*Shewanella frigidimarina отстоит чуть подальше — это морской психрофильный вид, адаптированный к холодным условиям Антарктики, поэтому и процент идентичности с остальными тремя (энтеробактерии) у нее поменьше.