| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| Magnesium transport protein CorA | CORA_ECOLI | CORA_BACSU | 175.5 | 17.9% | 31.6% | 159 | 13 |
| GTPase Era | ERA_ECOLI | ERA_BACSU | 600.5 | 39.3% | 61.6% | 8 | 5 |
| S-ribosylhomocysteine lyase | LUXS_ECOLI | LUXS_BACSU | 273.0 | 35.1% | 52.9% | 20 | 5 |
Те же три пары белков были выровнены программой water (так же при параметрах по умолчанию). Результаты представлены в таблице 2.
Таблица 2. Характеристики локального парного выравнивания трех пар белков
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| Magnesium transport protein CorA | CORA_ECOLI | CORA_BACSU | 191.5 | 23.2% | 39.0% | 93 | 12 | 87.3% | 79.2% |
| GTPase Era | ERA_ECOLI | ERA_BACSU | 603.5 | 40.3% | 62.7% | 7 | 4 | 97.0% | 96.7% |
| S-ribosylhomocysteine lyase | LUXS_ECOLI | LUXS_BACSU | 280.0 | 37.5% | 55.6% | 9 | 3 | 93.0% | 96.8% |
Гомологичны ли белки по всей длине? Нет, так как глобальное выравнивание показывает очень низкий процент идентичности (17.9%) и огромное количество гэпов: 159 (при попытке выровнять белки по всей длине алгоритму пришлось вставить эти пропуски).
Есть ли гомологичные участки? Да, локальное выравнивание имеет покрытие 87.3% и 79.2% — то есть довольно много участков обоих белков попали в выровненные фрагменты. Хотя идентичность выросла несущественно (до 23.2%), количество гэпов значительно сократилось (93 vs 159). Это говорит о том, что гомологичные участки есть по всей длине, однако количество вставок/делеций все еще велико.
Информативно ли в данном конкретном случае локальное выравнивание по сравнению с глобальным? Да, локальное выравнивание немного информативнее. Оно выигрывает в том, что позволяет увидеть сходство (если оно есть), не искажённое принудительным выравниванием негомологичных фрагментов (что неизбежно происходит из-за выравнивания по всей длине). Более высокий скор (191.5 vs 175.5) и более высокий процент идентичности также свидетельствуют в пользу этого утверждения.
Почему некоторые пары букв сопоставлены по-разному? Алгоритм глобального выравнивания (Needleman-Wunsch) выравнивает последовательности от начала и до конца, поэтому он вынужденно вставляет множественные гэпы, если надо «растянуть» выравнивание. Алгоритм локального выравнивания (Smith-Waterman) может игнорировать проблемные участки и фокусироваться на тех, где сходство выше. Поэтому локальное выравнивание «видит» гомологию там, где глобальное «разрывает» её гэпами.
Гомологичны ли белки по всей длине? Да. Глобальное выравнивание показывает хороший процент идентичности (39.3%) и высокий процент схожести (61.6%) при малом количестве гэпов (8). Это классические признаки гомологии по всей длине.
Есть ли гомологичные участки? Да, безусловно есть, и они составляют практически весь белок. Покрытие в локальном выравнивании близко к 100% (97% и 96.7%), что при вышеупомянутых процентах идентичности и схожести подтверждает, что белки гомологичны от начала и до конца.
Информативно ли локальное выравнивание? Оно информативно, но на мой взгляд в данном случае глобальное выравнивание информативнее. Поскольку белки гомологичны по всей длине, нет смысла отбрасывать концевые участки (что приводит к покрытию менее 100%). Да, локальное выравнивание даёт некоторое незначительное улучшение показателей идентичности (40.3% vs 39.3%) и схожести (62.7% vs 61.6%), но теряет при этом несколько аминокислот с концов.
Почему некоторые пары букв сопоставлены по-разному? Различия минимальны и касаются только концевых участков. Алгоритм локального выравнивания отбрасывает ~3% (в конкретно этой паре последовательностей) длины с каждого конца, где нет хорошего сходства, чтобы немного повысить общий вес выравнивания. Глобальный алгоритм сохраняет эти участки, но вставляет гэпы.
Гомологичны ли белки по всей длине? Скорее да, чем нет. Но стоит отметить, что хотя процент идентичности в глобальном выравнивании в целом хороший (35.1%), количество гэпов (20) значительно выше, чем у ERA (8), что указывает на наличие негомологичных участков.
Есть ли гомологичные участки? Да, локальное выравнивание имеет покрытие 93.0% и 96.8%, и это означает, что лишь 3-7% длины каждого белка оказались негомологичны (вследствие чего эти фрагменты были исключены из выравнивания). При этом идентичность выросла с 35.1% до 37.5%, а количество гэпов сократилось вдвое (20 vs 9).
Информативно ли локальное выравнивание? На мой взгляд да, локальное выравнивание информативно. Оно правильно идентифицирует, какие участки белков являются эволюционно консервативными, и не загромождает результат вставками гэпов.
Почему некоторые пары букв сопоставлены по-разному? Причины и следствия такие же, как описано ранее: при глобальном выравнивании алгоритм вынужденно вставляет 20 гэпов, чтобы сопоставить негомологичные вставки (так выравнивает по всей длине). Поэтому пары букв, которые в локальном выравнивании стоят друг под другом, в глобальном могут быть разнесены гэпами.
Для выполнения задания было необходимо выбрать какую-нибудь случайную пару белков с разными мнемониками функций и провести их глобальное и локальное выравнивание. Я выбрала белки с Entry Name TOLA_ECOLI (Tol-Pal system protein TolA) и OTC_BACS (Ornithine carbamoyltransferase).
Таблица 3. Характеристики парного выравнивания белков с различными мнемониками функций
| Глобальное (needle) | Локальное (water) | |
|---|---|---|
| Length | 502 | 212 |
| Identity | 65/502 (12.9%) | 45/212 (21.2%) |
| Similarity | 101/502 (20.1%) | 68/212 (32.1%) |
| Gaps | 264/502 (52.6%) | 53/212 (25.0%) |
| Score | 38.5 | 48.5 |
| Indels | 16 | 8 |
| Coverage 1 | – | 39% |
| Coverage 2 | – | 64.9% |
Глобальное выравнивание показывает очень низкую идентичность (12.9%) и огромное количество гэпов (52.6%). Это означает, что при попытке выровнять белки по всей длине алгоритму пришлось вставить более половины позиций как пропуски. Вес выравнивания равен 38.5, что очень мало (вес случайного выравнивания двух неродственных белков обычно близок к нулю или отрицателен). Положительное значение скора 38.5 говорит о том, что небольшие участки сходства всё же есть, но общая гомология отсутствует.
Локальное выравнивание показывает улучшенные показатели: идентичность выросла до 21.2%, схожесть до 32.1%, а доля гэпов сократилась вдвое (с 52.6% до 25.0%). Однако вес выравнивания все также крайне низок (48.5). Можно сделать вывод, что локальный алгоритм смог найти компактные участки с относительно хорошим сходством.
Покрытие: TOLA_ECOLI покрыт на 39%, OTC_BACSU покрыт на 64.9%, то есть второй белок на две трети включен в выровненный фрагмент (но этот перекос связан с тем, что сам по себе OTC_BACSU просто короче, чем TOLA_ECOLI (319 а.о. vs 421 а.о.), и при локальном выравнивании логично «отрезать» от более длинного). Стоит сказать, что для поиска гомологии между потенциально неродственными белками локальное выравнивание значительно информативнее глобального, так как способно обнаружить консервативные домены даже при отсутствии гомологии по всей длине.
Для мнемоники функций LUXS (рекомендованное название S-рибозил-гомоцистеин лиаза) в Swiss-Prot c помощью поискового запроса (id:LUXS*) AND (reviewed:true) было найдено 289 белков, из которых я выбрала 5 претендентов (помимо белков из ECOLI и BACSU) для выполнения множественного выравнивания: LUXS_SALTY, LUXS_HELPS, LUXS_SHEFN, LUXS_CLOPS, LUXS_PROMI.
Согласно указаниям по выполнению практикума, я создала текстовый файл luxs.txt" со строками:
sw:luxs_ecoli sw:luxs_bacsu sw:luxs_salty sw:luxs_helps sw:luxs_shefn sw:luxs_clops sw:luxs_promi |
Затем командой seqret @luxs.txt luxs.fasta создала файл в fasta-формате и запустила программу выравнивания muscle на kodomo:
muscle -align luxs.fasta -output luxs_alignment.fasta |
Полученное выравнивание я импортировала в Jalview (предварительно установленную на домашнем компьютере). В Jalview я раскрасила колонки выравнивания по проценту идентичности. Итоговый проект доступен по ссылке.
Ниже можно увидеть множественное выравнивание семи отобранных белковых последовательностей, раскрашенное по проценту идентичности.

Гомологичны ли белки данного выравнивания? Да, все семь белков гомологичны. Это в целом видно из самого выравнивания: все последовательности выровнены друг относительно друга без крупных сдвигов/протяженных инделей. Что вероятно свидетельствует о некоторой закономерности в их строении: наличии одинакового количества ключевых блоков (отличающихся большей консервативностью), расположенных в одном порядке.
В выравнивании есть длинные фрагменты, где аминокислоты совпадают у всех или почти всех видов. Например:
Это не все участки, но думаю, что для обоснования моей точки зрения касательно гомологичности белков по всей длине вполне достаточно.
Индели тоже относительно локализованы в одних и тех же регионах — преимущественно на N-конце и в C-концевой части, что может быть объяснено их меньшей функциональной значимостью, а следовательно, и большей вариабельностью.
У HELPS (Helicobacter pylori), CLOPS (Clostridium perfringens), BACSU (Bacillus subtilis) процент идентичности ниже, количество гэпов больше, то есть выровнялись они в целом хуже. Это ожидаемо, если рассмотреть организмы с точки зрения таксономии и эволюции. Оба грамположительных вида (BACSU и CLOPS) относятся к типу Bacillota, но к разным классам: Bacilli и Clostridia соответственно. HELPS относится к отдельному типу Campylobacterota, который является одной из древнейших ветвей. Чем больше эволюционное расстояние между видами, тем больше независимо накопленных мутаций может возникать. Как это отражается в выравнивании? Больше гэпов, ниже процент идентичности, хуже качество выравнивания на периферийных участках.
У SHEFN (Shewanella frigidimarina), ECOLI, SALTY (Salmonella enterica), PROMI (Proteus mirabilis), относящимся к классу Gammaproteobacteria, выравнивание выполнено очень хорошо. Что в принципе логично, поскольку все четыре вида являются эволюционно близкими родственниками (расположены в пределах одного таксономического класса).
*Shewanella frigidimarina отстоит чуть подальше — это морской психрофильный вид, адаптированный к холодным условиям Антарктики, поэтому и процент идентичности с остальными тремя (энтеробактерии) у нее поменьше.