1. Глобальное парное выравнивание гомологичных белков
Для сравнения были выбраны три пары белков с одинаковой мнемоникой функции в идентификаторах Swiss-Prot:
- DNAA_ECOLI и DNAA_BACSU
- ILVD_ECOLI и ILVD_BACSU
- PGK_ECOLI и PGK_BACSU
Мнемоники не начинаются на букву Y, а мнемоника ENO не использовалась, как требовалось в задании.
Использованные пары:
- Chromosomal replication initiator protein DnaA — DNAA_ECOLI / DNAA_BACSU
- Dihydroxy-acid dehydratase — ILVD_ECOLI / ILVD_BACSU
- Phosphoglycerate kinase — PGK_ECOLI / PGK_BACSU
Глобальное выравнивание выполнялось программой needle с параметрами по умолчанию.
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| Chromosomal replication initiator protein DnaA | DNAA_ECOLI | DNAA_BACSU | 990.0 | 42.3% | 61.9% | 43 | 9 |
| Dihydroxy-acid dehydratase | ILVD_ECOLI | ILVD_BACSU | 1384.5 | 46.2% | 61.9% | 86 | 11 |
| Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908.0 | 47.4% | 66.7% | 17 | 7 |
2. Локальное парное выравнивание гомологичных белков
Те же три пары белков были выровнены программой water с параметрами по умолчанию.
Для локального выравнивания дополнительно были вычислены проценты покрытия первого и второго белка выравниванием.
Покрытие считалось по формуле:
Coverage = (длина участка, попавшего в локальное выравнивание / полная длина белка) · 100%
Для DnaA
- у DNAA_ECOLI в water выровнен участок с 3 по 456 аминокислоту, длина участка 454, полная длина белка 467, покрытие 97.2%;
- у DNAA_BACSU выровнен участок с 5 по 443 аминокислоту, длина участка 439, полная длина белка 446, покрытие 98.4%.
Для IlvD
- у ILVD_ECOLI выровнен участок с 1 по 608 аминокислоту, длина участка 608, полная длина белка 616, покрытие 98.7%;
- у ILVD_BACSU выровнен участок с 1 по 555 аминокислоту, длина участка 555, полная длина белка 558, покрытие 99.5%.
Для Pgk
- у PGK_ECOLI выровнен участок с 6 по 384 аминокислоту, длина участка 379, полная длина белка 387, покрытие 97.9%;
- у PGK_BACSU выровнен участок с 6 по 394 аминокислоту, длина участка 389, полная длина белка 394, покрытие 98.7%.
Таблица 2. Характеристики локального парного выравнивания трёх пар белков
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| Chromosomal replication initiator protein DnaA | DNAA_ECOLI | DNAA_BACSU | 994.0 | 43.6% | 63.5% | 33 | 7 | 97.2% | 98.4% |
| Dihydroxy-acid dehydratase | ILVD_ECOLI | ILVD_BACSU | 1389.5 | 46.8% | 62.7% | 81 | 10 | 98.7% | 99.5% |
| Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908.0 | 48.1% | 67.5% | 14 | 6 | 97.9% | 98.7% |
4. Результат применения программ выравнивания к неродственным белкам
В качестве неродственной пары были выбраны белки DNAA_ECOLI и PGK_BACSU. DnaA является инициатором репликации хромосомы, а Pgk — фосфоглицераткиназой, то есть эти белки относятся к разным функциональным классам.
4.1. Глобальное выравнивание
Для глобального выравнивания были получены следующие значения:
- ID 1: DNAA_ECOLI
- ID 2: PGK_BACSU
- Score: 55.5
- % Identity: 12.7%
- % Similarity: 20.6%
- Gaps: 363
- Indels: 23
Такие показатели значительно хуже, чем у гомологичных пар. Особенно заметны очень низкие identity и similarity, а также большое число гэпов. Это говорит о том, что глобальное выравнивание формально построено, но с биологической точки зрения малоинформативно: алгоритм вынужден сопоставлять две несходные последовательности по всей длине.
4.2. Локальное выравнивание
Для локального выравнивания были получены следующие значения:
- ID 1: DNAA_ECOLI
- ID 2: PGK_BACSU
- Score: 70.0
- % Identity: 19.9%
- % Similarity: 33.4%
- Gaps: 107
- Indels: 15
Локальное выравнивание охватывает участок с 209 по 463 позицию у DNAA_ECOLI и с 97 по 308 позицию у PGK_BACSU. Покрытие составляет 54.6% и 53.8% соответственно.
Хотя локальное выравнивание даёт более высокие значения identity и similarity, эти показатели всё равно остаются низкими. Кроме того, покрытие составляет лишь около половины длины каждой последовательности, а число гэпов остаётся большим. Поэтому найденное локальное сходство не является убедительным доказательством гомологии.
4.3. Вывод по неродственной паре
Сравнение DNAA_ECOLI и PGK_BACSU показывает различие между формальным выравниванием и биологически значимым сходством. Глобальное выравнивание имеет очень низкие показатели и большое число гэпов, а локальное находит только ограниченный участок слабого сходства. Следовательно, результаты не подтверждают гомологию этих белков.
5. Множественное выравнивание белков и импорт в Jalview
Для множественного выравнивания была выбрана мнемоника PGK. Рекомендованное полное имя белка из Escherichia coli K-12 — Phosphoglycerate kinase. В базе Swiss-Prot по запросу reviewed:true AND id:PGK_* было найдено 679 записей, идентификаторы которых начинаются с PGK.
Для анализа были выбраны 7 белков:
- PGK_ECOLI
- PGK_BACSU
- PGK_ENTFA
- PGK_STRTH
- PGK_LACJO
- PGK_COXBU
- PGK_KORVE
Как выполнялось выравнивание
Последовательности были скачаны из UniProt в формате FASTA по следующим идентификаторам: P0A799, P40924, Q833I9, Q03IS8, P62413, Q83AU6 и Q1INK7. Затем семь FASTA-файлов были объединены в файл pgk7.fasta. Множественное выравнивание выполнялось программой clustalo, результат был сохранён в файле pgk7.aln.fasta и импортирован в Jalview. В Jalview колонки выравнивания были окрашены по схеме Percentage Identity.
Файл проекта Jalview: pgk7_project.jvp
Комментарии к выравниванию
По полученному множественному выравниванию видно, что все белки в целом выровнялись достаточно хорошо. В выравнивании присутствуют протяжённые участки, где у большинства последовательностей наблюдаются одинаковые или химически сходные аминокислоты. Сильно выбивающейся последовательности среди представленных белков не видно: все они сохраняют общий рисунок выравнивания. У отдельных последовательностей имеются вставки и делеции, однако они в основном сосредоточены в ограниченных участках и не нарушают сопоставление основных консервативных блоков.
Все представленные белки, по-видимому, являются гомологичными. Об этом свидетельствуют хорошее выравнивание по большей части длины, наличие общих консервативных мотивов и сходный характер замен аминокислот. Совпадения распределены не случайно, а образуют несколько выраженных блоков, что характерно для родственных белков с общей эволюционной историей.
В выравнивании заметна выраженная блочная структура: более консервативные участки чередуются с менее консервативными и более вариабельными областями.
Консервативные участки
В выравнивании не стоит выделять слишком длинные консервативные блоки, так как даже в визуально хорошо сохраняющихся областях встречаются отдельные вариабельные колонки. Более корректно отметить несколько коротких участков с высокой консервативностью:
- столбцы 23–25 — участок NVP; в этих колонках аминокислоты практически полностью совпадают у всех последовательностей;
- столбцы 59–63 — участок SHLGR; это один из наиболее хорошо выраженных консервативных мотивов в начале выравнивания;
- столбцы 161–163 — участок DAF; эти позиции хорошо сохраняются у всех представленных белков.
Эти участки можно считать наиболее надёжными консервативными фрагментами, так как они состоят из конкретных колонок с высокой степенью совпадения, а не из длинных областей, внутри которых есть как консервативные, так и неконсервативные позиции.
Менее консервативные участки
Менее консервативные области в этом выравнивании выражены не как длинные полностью вариабельные блоки, а как отдельные короткие участки с повышенным числом замен и гэпов. Наиболее заметны следующие позиции:
- столбцы 86–94 — в этом участке у части последовательностей присутствуют гэпы, тогда как у других есть аминокислотные вставки. Поэтому сопоставление позиций здесь менее надёжное, чем в соседних консервативных колонках;
- столбцы 102–111 — участок также выглядит вариабельным: в одних последовательностях здесь находятся аминокислоты, а в других — пропуски. Кроме того, состав аминокислот между последовательностями заметно различается;
- столбцы 127–135 — область с несколькими гэпированными позициями и различиями между последовательностями. Хотя рядом с ней есть хорошо сохраняющиеся колонки, сам этот короткий участок нельзя считать консервативным;
- столбцы 176–181 — здесь видна вставка/делеция: у части белков стоят гэпы, у других — разные аминокислоты. Поэтому этот участок относится к менее консервативным;
- столбцы 276–282 — вариабельная область с заметными различиями между последовательностями и нарушением регулярного совпадения аминокислот. Она расположена между более хорошо выровненными соседними участками;
- столбцы 416–421 — ближе к C-концу выравнивания снова появляется участок с гэпами и различиями по длине, поэтому его также лучше отнести к менее консервативным.
Вывод по множественному выравниванию
Множественное выравнивание показывает, что представленные белки хорошо сопоставляются друг с другом по большей части длины и, по-видимому, принадлежат к одному гомологичному семейству. Выравнивание имеет выраженную внутреннюю структуру: в нём выделяются короткие хорошо консервативные мотивы, чередующиеся с более вариабельными участками. Наиболее надёжные консервативные фрагменты соответствуют отдельным колонкам или коротким сериям колонок с высокой степенью совпадения, тогда как менее консервативные участки чаще связаны с небольшими вставками, делециями и более свободной заменяемостью аминокислот.
3. Комментарии к выравниваниям
Для всех трёх гомологичных пар локальное выравнивание охватывает почти всю длину обеих последовательностей. Покрытие составляет 97.2–99.5%, поэтому сходство между белками не ограничивается отдельным коротким доменом, а распространяется практически на всю последовательность.
По сравнению с глобальным выравниванием локальное обычно даёт немного более высокие значения identity и similarity, а также меньшее число гэпов и инделей. Это связано с тем, что алгоритм локального выравнивания может отбросить слабо сопоставимые краевые участки, тогда как глобальное выравнивание вынуждено выравнивать последовательности целиком.
3.1. DNAA_ECOLI — DNAA_BACSU
Для пары DnaA локальное выравнивание начинается не с первой позиции: у DNAA_ECOLI оно охватывает участок с 3 по 456 аминокислоту, а у DNAA_BACSU — с 5 по 443. Поэтому из локального выравнивания исключены несколько крайних аминокислот, которые в глобальном выравнивании ухудшали сопоставление.
Численные показатели при этом меняются умеренно: score возрастает с 990.0 до 994.0, identity — с 42.3% до 43.6%, similarity — с 61.9% до 63.5%, а число гэпов уменьшается с 43 до 33. Следовательно, белки DnaA гомологичны почти по всей длине, а локальное выравнивание лишь уточняет границы наиболее хорошо сопоставимого участка.
3.2. ILVD_ECOLI — ILVD_BACSU
Для пары IlvD локальное выравнивание также почти полностью покрывает обе последовательности: 98.7% для ILVD_ECOLI и 99.5% для ILVD_BACSU. Показатели локального выравнивания немного выше, чем глобального: score увеличивается с 1384.5 до 1389.5, identity — с 46.2% до 46.8%, similarity — с 61.9% до 62.7%.
Это показывает, что белки IlvD гомологичны практически по всей длине. Небольшое улучшение локального выравнивания объясняется исключением отдельных хуже сопоставимых участков, но принципиально новой картины по сравнению с глобальным выравниванием оно не даёт.
3.3. PGK_ECOLI — PGK_BACSU
Для пары Pgk различия между глобальным и локальным выравниванием минимальны. Score остаётся тем же — 908.0, identity увеличивается с 47.4% до 48.1%, similarity — с 66.7% до 67.5%, а число гэпов уменьшается с 17 до 14.
Локальное выравнивание начинается с 6-й позиции обеих последовательностей и почти полностью повторяет глобальное. Это означает, что глобальное выравнивание уже хорошо описывает соотношение этих белков, а исключение нескольких крайних позиций почти не влияет на результат. Белки Pgk у E. coli и B. subtilis можно считать гомологичными почти по всей длине.
3.4. Общий вывод по трём гомологичным парам
Во всех трёх случаях локальное выравнивание подтверждает вывод, полученный по глобальному выравниванию: выбранные пары белков гомологичны почти по всей длине. Локальное выравнивание не выявляет отдельных изолированных доменов, а лишь немного улучшает численные показатели за счёт исключения слабее сопоставимых участков, в основном на концах последовательностей.
Наиболее заметный эффект локального выравнивания наблюдается у DnaA, где уменьшается число гэпов и немного растут identity и similarity. У Pgk различия минимальны, поэтому для этой пары глобальное и локальное выравнивания дают практически одинаковую биологическую интерпретацию.