Парное и множественное выравнивание белков
Глобальное и локальное выравнивание гомологичных и неродственных белков.
Глобальное парное выравнивание гомологичных белков
Для сравнения были выбраны три пары белков с одинаковой мнемоникой функции в идентификаторах Swiss-Prot:
○ PGK_ECOLI и PGK_BACSU
○ ATPE_ECOLI и ATPE_BACSU
○ DNAK_ECOLI и DNAK_BACSU
Мнемоники не начинаются на букву Y, а мнемоника ENO не использовалась, как требовалось в задании.
Использованные пары:
Phosphoglycerate kinase — PGK_ECOLI / PGK_BACSU
ATP synthase epsilon chain — ATPE_ECOLI / ATPE_BACSU
Chaperone protein DnaK — DNAK_ECOLI / DNAK_BACSU
Глобальное выравнивание выполнялось программой needle с параметрами по умолчанию.
| Protein name | ID 1 | ID 2 | Score | %Indentity | %Simularity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908.0 | 47.4% | 66.7% | 17 | 7 |
| ATP synthase epsilon chain | ATPE_ECOLI | ATPE_BACSU | 213.0 | 30,9% | 55.4% | 7 | 3 |
| Chaperone protein DnaK | DNAK_ECOLI | DNAK_BACSU | 1767.0 | 55.4% | 72.9% | 33 | 5 |
Локальное парное выравнивание гомологичных белков
Те же три пары белков были выровнены программой water с параметрами по умолчанию.
Для локального выравнивания дополнительно были вычислены проценты покрытия первого и второго белка выравниванием.
Покрытие считалось по формуле:
Coverage = (длина участка, попавшего в локальное выравнивание / полная длина белка) · 100%
Для PGK
○ у PGK_ECOLI в water выровнен участок с 6 по 391 аминокислоту, длина участка 386, полная длина белка 394, покрытие 98.0%;
○ у PGK_BACSU выровнен участок с 6 по 391 аминокислоту, длина участка 386, полная длина белка 394, покрытие 98.0%.
Для ATPE
○ у ATPE_ECOLI выровнен участок с 4 по 131 аминокислоту, длина участка 128, полная длина белка 139, покрытие 92.1%;
○ у ATPE_BACSU выровнен участок с 3 по 129 аминокислоту, длина участка 129, полная длина белка 133, покрытие 95.5%.
Для DNAK
○ у DNAK_ECOLI выровнен участок с 1 по 636 аминокислоту, длина участка 636, полная длина белка 638, покрытие 99.7%;
○ у DNAK_BACSU выровнен участок с 1 по 636 аминокислоту, длина участка 636, полная длина белка 638, покрытие 99.7%.
| Protein name | ID 1 | ID 2 | Score | %Indentity | %Simularity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908.0 | 48.1% | 67.5% | 14 | 6 | <98.0% | 98.0% |
| ATP synthase epsilon chain | ATPE_ECOLI | ATPE_BACSU | 220.0 | 33,6% | 60.2% | 1 | 1 | 92.1% | 95.5% |
| Chaperone protein DnaK | DNAK_ECOLI | DNAK_BACSU | 1767.0 | 55.8% | 73.3% | 30 | 4 | 99.7% | 99.7% |
Комментарии к выравниванию
Для всех трёх гомологичных пар локальное выравнивание охватывает почти всю длину обеих последовательностей. Покрытие составляет 92.1–99.7%, поэтому сходство между белками не ограничивается отдельным коротким доменом, а распространяется практически на всю последовательность.
По сравнению с глобальным выравниванием локальное обычно даёт немного более высокие значения identity и similarity, а также меньшее число гэпов и инделей. Это связано с тем, что алгоритм локального выравнивания может отбросить слабо сопоставимые краевые участки, тогда как глобальное выравнивание вынуждено выравнивать последовательности целиком.
3.1. PGK_ECOLI — PGK_BACSU
Для пары PGK локальное выравнивание начинается не с первой позиции: у DNAA_ECOLI оно охватывает участок с 6 по 391 аминокислоту, как и у DNAA_BACSU. Поэтому из локального выравнивания исключены несколько крайних аминокислот, которые в глобальном выравнивании ухудшали сопоставление.
Численные показатели при этом меняются умеренно: score не изменяется, identity возрастает с 47.4% до 48.1%, similarity — с 67.9% до 66.5%, а число гэпов уменьшается с 17 до 14. Следовательно, белки PGK гомологичны почти по всей длине, а локальное выравнивание лишь уточняет границы наиболее хорошо сопоставимого участка.
3.2. ATPE_ECOLI — ATPE_BACSU
Для пары ATPE локальное выравнивание также почти полностью покрывает обе последовательности: 92.1% для ATPE_ECOLI и 95.5% для ATPE_BACSU. Показатели локального выравнивания немного выше, чем глобального: score увеличивается с 213.0 до 220.0, identity — с 30.9% до 33.6%, similarity — с 55.4% до 60.2%.
Это показывает, что белки ATPE гомологичны практически по всей длине. Улучшение локального выравнивания объясняется исключением отдельных хуже сопоставимых участков, но принципиально новой картины по сравнению с глобальным выравниванием оно не даёт.
3.3. DNAK_ECOLI — DNAK_BACSU
Для пары DNAK различия между глобальным и локальным выравниванием минимальны. Score остаётся тем же — 1767.0, identity увеличивается с 55.4% до 55.8%, similarity — с 72.9% до 73.3%, а число гэпов уменьшается с 33 до 30.
Локальное выравнивание начинается с 1-й позиции обеих последовательностей и почти полностью повторяет глобальное. Это означает, что глобальное выравнивание уже хорошо описывает соотношение этих белков, а исключение нескольких крайних позиций почти не влияет на результат. Белки DNAK у E. coli и B. subtilis можно считать гомологичными почти по всей длине.
3.4. Общий вывод по трём гомологичным парам
Во всех трёх случаях локальное выравнивание подтверждает вывод, полученный по глобальному выравниванию: выбранные пары белков гомологичны почти по всей длине. Локальное выравнивание не выявляет отдельных изолированных доменов, а лишь немного улучшает численные показатели за счёт исключения слабее сопоставимых участков, в основном на концах последовательностей.
Наиболее заметный эффект локального выравнивания наблюдается у DnaA, где уменьшается число гэпов и немного растут identity и similarity. У Pgk различия минимальны, поэтому для этой пары глобальное и локальное выравнивания дают практически одинаковую биологическую интерпретацию.
Результат применения программ выравнивания к неродственным белкам
В качестве неродственной пары были выбраны белки DNAA_ECOLI и PGK_BACSU. DnaA является инициатором репликации хромосомы, а Pgk — фосфоглицераткиназой, то есть эти белки относятся к разным функциональным классам.
4.1. Глобальное выравнивание
Для глобального выравнивания были получены следующие значения:
ID 1: DNAK_ECOLI
ID 2: PGK_BACSU
Score: 58.5
% Identity: 13.3%
% Similarity: 22.5%
Gaps: 396
Indels: 30
Такие показатели значительно хуже, чем у гомологичных пар. Особенно заметны очень низкие identity и similarity, а также большое число гэпов. Это говорит о том, что глобальное выравнивание формально построено, но с биологической точки зрения малоинформативно: алгоритм вынужден сопоставлять две несходные последовательности по всей длине.
4.2. Локальное выравнивание
Для локального выравнивания были получены следующие значения:
ID 1: DNAK_ECOLI
ID 2: PGK_BACSU
Score: 65.5
% Identity: 19.8%
% Similarity: 31.1%
Gaps: 199
Indels: 28
Локальное выравнивание охватывает участок с 209 по 463 позицию у DNAA_ECOLI и с 97 по 308 позицию у PGK_BACSU. Покрытие составляет 54.6% и 53.8% соответственно.
Хотя локальное выравнивание даёт более высокие значения identity и similarity, эти показатели всё равно остаются низкими. Кроме того, покрытие составляет лишь около половины длины каждой последовательности, а число гэпов остаётся большим. Поэтому найденное локальное сходство не является убедительным доказательством гомологии.
4.3. Вывод по неродственной паре
Сравнение DNAK_ECOLI и PGK_BACSU показывает различие между формальным выравниванием и биологически значимым сходством. Глобальное выравнивание имеет очень низкие показатели и большое число гэпов, а локальное находит только ограниченный участок слабого сходства. Следовательно, результаты не подтверждают гомологию этих белков.
Множественное выравнивание белков и импорт в Jalview
Для множественного выравнивания была выбрана мнемоника DNAK. Рекомендованное полное имя белка из Escherichia coli K-12 — Chaperone protein DnaK. В базе Swiss-Prot по запросу reviewed:true AND id:DNAK_* было найдено 773 записей, идентификаторы которых начинаются с DNAK.
Для анализа были выбраны 7 белков:
○ DNAK_ECOLI
○ DNAK_BACSU
○ DNAK_AQUAE
○ DNAK_MYCTU
○ DNAK_SALTY
○ DNAK_STAA8
○ DNAK_THET8
Как выполнялось выравнивание:
Последовательности были скачаны из UniProt в формате FASTA по следующим идентификаторам: P0A6Y8, P9WMJ9, P17820, Q56073, Q2FXZ2, O67118 и Q56235. Затем семь FASTA-файлов были импортированы в Jalview. Множественное выравнивание выполнялось программой clustalo, результат был сохранён в файле 7dnak.aln.fasta. В Jalview колонки выравнивания были окрашены по схеме Percentage Identity.
Файл проекта Jalview: 7dnak.jvp
Комментарии к выравниванию
По полученному множественному выравниванию видно, что все белки в целом выровнялись достаточно хорошо. В выравнивании присутствуют протяжённые участки, где у большинства последовательностей наблюдаются одинаковые или химически сходные аминокислоты. Сильно выбивающейся последовательности среди представленных белков не видно: все они сохраняют общий рисунок выравнивания. У отдельных последовательностей имеются вставки и делеции, однако они в основном сосредоточены в ограниченных участках и не нарушают сопоставление основных консервативных блоков.
Все представленные белки, по-видимому, являются гомологичными. Об этом свидетельствуют хорошее выравнивание по большей части длины, наличие общих консервативных мотивов и сходный характер замен аминокислот. Совпадения распределены не случайно, а образуют несколько выраженных блоков, что характерно для родственных белков с общей эволюционной историей.
В выравнивании заметна выраженная блочная структура: более консервативные участки чередуются с менее консервативными и более вариабельными областями.
Более консервативные участки
Наиболее консервативными выглядят следующие участки выравнивания:
○ столбцы 5–80;
○ столбцы 115–190;
○ столбцы 200-240;
○ столбцы 250–280;
○ столбцы 330–355;
○ столбцы 370–500.
В этих областях у большинства последовательностей совпадают либо сами аминокислоты, либо наблюдаются химически сходные замены. Это видно по интенсивной окраске остатков, высоким значениям на панели conservation, а также по относительно высоким значениям quality. Особенно хорошо выражены консервативные блоки в ачальной части выравнивания и ближе к середине области, где одновременно наблюдаются высокая заполненность колонок, небольшое число гэпов и большое количество совпадающих аминокислот.
Менее консервативные участки
Более вариабельными выглядят следующие области:
○ столбцы 85–110;
○ столбцы 190–200;
○ столбцы 240–245;
○ столбцы 280–330;
○ столбцы 357–365;
○ столбцы 500–660.
В этих участках чаще встречаются аминокислотные замены, небольшие вставки и делеции. По панели occupancy видно, что часть позиций заполнена не у всех последовательностей, а по панели conservation высота столбиков в этих местах ниже, чем в наиболее консервативных блоках. Особенно вариабельнымивыглядит C-концевая область белков DnaK, где между организмами наблюдается больше различий.
Вывод по множественному выравниванию
Множественное выравнивание показывает, что представленные белки хорошо сопоставляются друг с другом по большей части длины и, по-видимому, принадлежат к одному гомологичному семейству. Выравнивание имеет выраженную внутреннюю структуру: в нём выделяются хорошо консервативные блоки, чередующиеся с более вариабельными участками. Наиболее консервативные области расположены главным образом в центральной части и во второй половине выравнивания, тогда как менее консервативные участки чаще соответствуют зонам с небольшими вставками, делециями и более свободной заменяемостью аминокислот.