← назад ко II семестру

Практикум № 06 · II семестр

Парное и множественное выравнивание белков

Глобальное и локальное выравнивание гомологичных и неродственных белков.

○ 01

Глобальное парное выравнивание гомологичных белков

Для сравнения были выбраны три пары белков с одинаковой мнемоникой функции в идентификаторах Swiss-Prot:

PGK_ECOLI и PGK_BACSU

ATPE_ECOLI и ATPE_BACSU

DNAK_ECOLI и DNAK_BACSU

Мнемоники не начинаются на букву Y, а мнемоника ENO не использовалась, как требовалось в задании.

Использованные пары:

Phosphoglycerate kinase — PGK_ECOLI / PGK_BACSU

ATP synthase epsilon chain — ATPE_ECOLI / ATPE_BACSU

Chaperone protein DnaK — DNAK_ECOLI / DNAK_BACSU

Глобальное выравнивание выполнялось программой needle с параметрами по умолчанию.

Табл. 1 · Характеристики глобального парного выравнивания трёх пар белков
Protein name ID 1 ID 2 Score %Indentity %Simularity Gaps Indels
Phosphoglycerate kinasePGK_ECOLIPGK_BACSU908.047.4%66.7%177
ATP synthase epsilon chainATPE_ECOLIATPE_BACSU213.030,9%55.4%73
Chaperone protein DnaKDNAK_ECOLIDNAK_BACSU1767.055.4%72.9%335
○ 02

Локальное парное выравнивание гомологичных белков

Те же три пары белков были выровнены программой water с параметрами по умолчанию.

Для локального выравнивания дополнительно были вычислены проценты покрытия первого и второго белка выравниванием.

Покрытие считалось по формуле:

Coverage = (длина участка, попавшего в локальное выравнивание / полная длина белка) · 100%

Для PGK

у PGK_ECOLI в water выровнен участок с 6 по 391 аминокислоту, длина участка 386, полная длина белка 394, покрытие 98.0%;

у PGK_BACSU выровнен участок с 6 по 391 аминокислоту, длина участка 386, полная длина белка 394, покрытие 98.0%.

Для ATPE

у ATPE_ECOLI выровнен участок с 4 по 131 аминокислоту, длина участка 128, полная длина белка 139, покрытие 92.1%;

у ATPE_BACSU выровнен участок с 3 по 129 аминокислоту, длина участка 129, полная длина белка 133, покрытие 95.5%.

Для DNAK

у DNAK_ECOLI выровнен участок с 1 по 636 аминокислоту, длина участка 636, полная длина белка 638, покрытие 99.7%;

у DNAK_BACSU выровнен участок с 1 по 636 аминокислоту, длина участка 636, полная длина белка 638, покрытие 99.7%.

<
Табл. 2 · Характеристики локального парного выравнивания трёх пар белков
Protein name ID 1 ID 2 Score %Indentity %Simularity Gaps Indels Coverage 1 Coverage 2
Phosphoglycerate kinasePGK_ECOLIPGK_BACSU908.048.1%67.5%14698.0%98.0%
ATP synthase epsilon chainATPE_ECOLIATPE_BACSU220.033,6%60.2%1192.1%95.5%
Chaperone protein DnaKDNAK_ECOLIDNAK_BACSU1767.055.8%73.3%30499.7%99.7%
○ 03

Комментарии к выравниванию

Для всех трёх гомологичных пар локальное выравнивание охватывает почти всю длину обеих последовательностей. Покрытие составляет 92.1–99.7%, поэтому сходство между белками не ограничивается отдельным коротким доменом, а распространяется практически на всю последовательность.

По сравнению с глобальным выравниванием локальное обычно даёт немного более высокие значения identity и similarity, а также меньшее число гэпов и инделей. Это связано с тем, что алгоритм локального выравнивания может отбросить слабо сопоставимые краевые участки, тогда как глобальное выравнивание вынуждено выравнивать последовательности целиком.

3.1. PGK_ECOLI — PGK_BACSU

Для пары PGK локальное выравнивание начинается не с первой позиции: у DNAA_ECOLI оно охватывает участок с 6 по 391 аминокислоту, как и у DNAA_BACSU. Поэтому из локального выравнивания исключены несколько крайних аминокислот, которые в глобальном выравнивании ухудшали сопоставление.

Численные показатели при этом меняются умеренно: score не изменяется, identity возрастает с 47.4% до 48.1%, similarity — с 67.9% до 66.5%, а число гэпов уменьшается с 17 до 14. Следовательно, белки PGK гомологичны почти по всей длине, а локальное выравнивание лишь уточняет границы наиболее хорошо сопоставимого участка.

3.2. ATPE_ECOLI — ATPE_BACSU

Для пары ATPE локальное выравнивание также почти полностью покрывает обе последовательности: 92.1% для ATPE_ECOLI и 95.5% для ATPE_BACSU. Показатели локального выравнивания немного выше, чем глобального: score увеличивается с 213.0 до 220.0, identity — с 30.9% до 33.6%, similarity — с 55.4% до 60.2%.

Это показывает, что белки ATPE гомологичны практически по всей длине. Улучшение локального выравнивания объясняется исключением отдельных хуже сопоставимых участков, но принципиально новой картины по сравнению с глобальным выравниванием оно не даёт.

3.3. DNAK_ECOLI — DNAK_BACSU

Для пары DNAK различия между глобальным и локальным выравниванием минимальны. Score остаётся тем же — 1767.0, identity увеличивается с 55.4% до 55.8%, similarity — с 72.9% до 73.3%, а число гэпов уменьшается с 33 до 30.

Локальное выравнивание начинается с 1-й позиции обеих последовательностей и почти полностью повторяет глобальное. Это означает, что глобальное выравнивание уже хорошо описывает соотношение этих белков, а исключение нескольких крайних позиций почти не влияет на результат. Белки DNAK у E. coli и B. subtilis можно считать гомологичными почти по всей длине.

3.4. Общий вывод по трём гомологичным парам

Во всех трёх случаях локальное выравнивание подтверждает вывод, полученный по глобальному выравниванию: выбранные пары белков гомологичны почти по всей длине. Локальное выравнивание не выявляет отдельных изолированных доменов, а лишь немного улучшает численные показатели за счёт исключения слабее сопоставимых участков, в основном на концах последовательностей.

Наиболее заметный эффект локального выравнивания наблюдается у DnaA, где уменьшается число гэпов и немного растут identity и similarity. У Pgk различия минимальны, поэтому для этой пары глобальное и локальное выравнивания дают практически одинаковую биологическую интерпретацию.

○ 04

Результат применения программ выравнивания к неродственным белкам

В качестве неродственной пары были выбраны белки DNAA_ECOLI и PGK_BACSU. DnaA является инициатором репликации хромосомы, а Pgk — фосфоглицераткиназой, то есть эти белки относятся к разным функциональным классам.

4.1. Глобальное выравнивание

Для глобального выравнивания были получены следующие значения:

ID 1: DNAK_ECOLI

ID 2: PGK_BACSU

Score: 58.5

% Identity: 13.3%

% Similarity: 22.5%

Gaps: 396

Indels: 30

Такие показатели значительно хуже, чем у гомологичных пар. Особенно заметны очень низкие identity и similarity, а также большое число гэпов. Это говорит о том, что глобальное выравнивание формально построено, но с биологической точки зрения малоинформативно: алгоритм вынужден сопоставлять две несходные последовательности по всей длине.

4.2. Локальное выравнивание

Для локального выравнивания были получены следующие значения:

ID 1: DNAK_ECOLI

ID 2: PGK_BACSU

Score: 65.5

% Identity: 19.8%

% Similarity: 31.1%

Gaps: 199

Indels: 28

Локальное выравнивание охватывает участок с 209 по 463 позицию у DNAA_ECOLI и с 97 по 308 позицию у PGK_BACSU. Покрытие составляет 54.6% и 53.8% соответственно.

Хотя локальное выравнивание даёт более высокие значения identity и similarity, эти показатели всё равно остаются низкими. Кроме того, покрытие составляет лишь около половины длины каждой последовательности, а число гэпов остаётся большим. Поэтому найденное локальное сходство не является убедительным доказательством гомологии.

4.3. Вывод по неродственной паре

Сравнение DNAK_ECOLI и PGK_BACSU показывает различие между формальным выравниванием и биологически значимым сходством. Глобальное выравнивание имеет очень низкие показатели и большое число гэпов, а локальное находит только ограниченный участок слабого сходства. Следовательно, результаты не подтверждают гомологию этих белков.

○ 05

Множественное выравнивание белков и импорт в Jalview

Для множественного выравнивания была выбрана мнемоника DNAK. Рекомендованное полное имя белка из Escherichia coli K-12 — Chaperone protein DnaK. В базе Swiss-Prot по запросу reviewed:true AND id:DNAK_* было найдено 773 записей, идентификаторы которых начинаются с DNAK.

Для анализа были выбраны 7 белков:

DNAK_ECOLI

DNAK_BACSU

DNAK_AQUAE

DNAK_MYCTU

DNAK_SALTY

DNAK_STAA8

DNAK_THET8

Как выполнялось выравнивание:

Последовательности были скачаны из UniProt в формате FASTA по следующим идентификаторам: P0A6Y8, P9WMJ9, P17820, Q56073, Q2FXZ2, O67118 и Q56235. Затем семь FASTA-файлов были импортированы в Jalview. Множественное выравнивание выполнялось программой clustalo, результат был сохранён в файле 7dnak.aln.fasta. В Jalview колонки выравнивания были окрашены по схеме Percentage Identity.

Файл проекта Jalview: 7dnak.jvp

Комментарии к выравниванию

По полученному множественному выравниванию видно, что все белки в целом выровнялись достаточно хорошо. В выравнивании присутствуют протяжённые участки, где у большинства последовательностей наблюдаются одинаковые или химически сходные аминокислоты. Сильно выбивающейся последовательности среди представленных белков не видно: все они сохраняют общий рисунок выравнивания. У отдельных последовательностей имеются вставки и делеции, однако они в основном сосредоточены в ограниченных участках и не нарушают сопоставление основных консервативных блоков.

Все представленные белки, по-видимому, являются гомологичными. Об этом свидетельствуют хорошее выравнивание по большей части длины, наличие общих консервативных мотивов и сходный характер замен аминокислот. Совпадения распределены не случайно, а образуют несколько выраженных блоков, что характерно для родственных белков с общей эволюционной историей.

В выравнивании заметна выраженная блочная структура: более консервативные участки чередуются с менее консервативными и более вариабельными областями.

Более консервативные участки

Наиболее консервативными выглядят следующие участки выравнивания:

столбцы 5–80;

столбцы 115–190;

столбцы 200-240;

столбцы 250–280;

столбцы 330–355;

столбцы 370–500.

В этих областях у большинства последовательностей совпадают либо сами аминокислоты, либо наблюдаются химически сходные замены. Это видно по интенсивной окраске остатков, высоким значениям на панели conservation, а также по относительно высоким значениям quality. Особенно хорошо выражены консервативные блоки в ачальной части выравнивания и ближе к середине области, где одновременно наблюдаются высокая заполненность колонок, небольшое число гэпов и большое количество совпадающих аминокислот.

Менее консервативные участки

Более вариабельными выглядят следующие области:

столбцы 85–110;

столбцы 190–200;

столбцы 240–245;

столбцы 280–330;

столбцы 357–365;

столбцы 500–660.

В этих участках чаще встречаются аминокислотные замены, небольшие вставки и делеции. По панели occupancy видно, что часть позиций заполнена не у всех последовательностей, а по панели conservation высота столбиков в этих местах ниже, чем в наиболее консервативных блоках. Особенно вариабельнымивыглядит C-концевая область белков DnaK, где между организмами наблюдается больше различий.

Вывод по множественному выравниванию

Множественное выравнивание показывает, что представленные белки хорошо сопоставляются друг с другом по большей части длины и, по-видимому, принадлежат к одному гомологичному семейству. Выравнивание имеет выраженную внутреннюю структуру: в нём выделяются хорошо консервативные блоки, чередующиеся с более вариабельными участками. Наиболее консервативные области расположены главным образом в центральной части и во второй половине выравнивания, тогда как менее консервативные участки чаще соответствуют зонам с небольшими вставками, делециями и более свободной заменяемостью аминокислот.