GRAND FBB

LEVSHIN VADIM

SEASON: 2025/26 LAPS: 2 STATUS: ACTIVE

Парное и множественное выравнивание белков

Глобальное и локальное выравнивание гомологичных и неродственных белков, а также множественное выравнивание белков с мнемоникой PGK.

Анализ выравниваний белковых последовательностей
Автор: Левшин Вадим Игоревич
Факультет биоинженерии и биоинформатики, Московский государственный университет имени М.В. Ломоносова
Контактные данные: Dima.Tumanovs@yandex.ru
global alignment local alignment homologous proteins multiple alignment sequence analysis

1. Глобальное парное выравнивание гомологичных белков

Для сравнения были выбраны три пары белков с одинаковой мнемоникой функции в идентификаторах Swiss-Prot:

  • DNAA_ECOLI и DNAA_BACSU
  • ILVD_ECOLI и ILVD_BACSU
  • PGK_ECOLI и PGK_BACSU

Мнемоники не начинаются на букву Y, а мнемоника ENO не использовалась, как требовалось в задании.

Использованные пары:

  1. Chromosomal replication initiator protein DnaA — DNAA_ECOLI / DNAA_BACSU
  2. Dihydroxy-acid dehydratase — ILVD_ECOLI / ILVD_BACSU
  3. Phosphoglycerate kinase — PGK_ECOLI / PGK_BACSU

Глобальное выравнивание выполнялось программой needle с параметрами по умолчанию.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Chromosomal replication initiator protein DnaA DNAA_ECOLI DNAA_BACSU 990.0 42.3% 61.9% 43 9
Dihydroxy-acid dehydratase ILVD_ECOLI ILVD_BACSU 1384.5 46.2% 61.9% 86 11
Phosphoglycerate kinase PGK_ECOLI PGK_BACSU 908.0 47.4% 66.7% 17 7

2. Локальное парное выравнивание гомологичных белков

Те же три пары белков были выровнены программой water с параметрами по умолчанию.

Для локального выравнивания дополнительно были вычислены проценты покрытия первого и второго белка выравниванием.

Покрытие считалось по формуле:
Coverage = (длина участка, попавшего в локальное выравнивание / полная длина белка) · 100%

Для DnaA

  • у DNAA_ECOLI в water выровнен участок с 3 по 456 аминокислоту, длина участка 454, полная длина белка 467, покрытие 97.2%;
  • у DNAA_BACSU выровнен участок с 5 по 443 аминокислоту, длина участка 439, полная длина белка 446, покрытие 98.4%.

Для IlvD

  • у ILVD_ECOLI выровнен участок с 1 по 608 аминокислоту, длина участка 608, полная длина белка 616, покрытие 98.7%;
  • у ILVD_BACSU выровнен участок с 1 по 555 аминокислоту, длина участка 555, полная длина белка 558, покрытие 99.5%.

Для Pgk

  • у PGK_ECOLI выровнен участок с 6 по 384 аминокислоту, длина участка 379, полная длина белка 387, покрытие 97.9%;
  • у PGK_BACSU выровнен участок с 6 по 394 аминокислоту, длина участка 389, полная длина белка 394, покрытие 98.7%.

Таблица 2. Характеристики локального парного выравнивания трёх пар белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Chromosomal replication initiator protein DnaA DNAA_ECOLI DNAA_BACSU 994.0 43.6% 63.5% 33 7 97.2% 98.4%
Dihydroxy-acid dehydratase ILVD_ECOLI ILVD_BACSU 1389.5 46.8% 62.7% 81 10 98.7% 99.5%
Phosphoglycerate kinase PGK_ECOLI PGK_BACSU 908.0 48.1% 67.5% 14 6 97.9% 98.7%

3. Комментарии к выравниваниям

Для всех трёх гомологичных пар локальное выравнивание охватывает почти всю длину обеих последовательностей. Покрытие составляет 97.2–99.5%, поэтому сходство между белками не ограничивается отдельным коротким доменом, а распространяется практически на всю последовательность.

По сравнению с глобальным выравниванием локальное обычно даёт немного более высокие значения identity и similarity, а также меньшее число гэпов и инделей. Это связано с тем, что алгоритм локального выравнивания может отбросить слабо сопоставимые краевые участки, тогда как глобальное выравнивание вынуждено выравнивать последовательности целиком.

3.1. DNAA_ECOLI — DNAA_BACSU

Для пары DnaA локальное выравнивание начинается не с первой позиции: у DNAA_ECOLI оно охватывает участок с 3 по 456 аминокислоту, а у DNAA_BACSU — с 5 по 443. Поэтому из локального выравнивания исключены несколько крайних аминокислот, которые в глобальном выравнивании ухудшали сопоставление.

Численные показатели при этом меняются умеренно: score возрастает с 990.0 до 994.0, identity — с 42.3% до 43.6%, similarity — с 61.9% до 63.5%, а число гэпов уменьшается с 43 до 33. Следовательно, белки DnaA гомологичны почти по всей длине, а локальное выравнивание лишь уточняет границы наиболее хорошо сопоставимого участка.

3.2. ILVD_ECOLI — ILVD_BACSU

Для пары IlvD локальное выравнивание также почти полностью покрывает обе последовательности: 98.7% для ILVD_ECOLI и 99.5% для ILVD_BACSU. Показатели локального выравнивания немного выше, чем глобального: score увеличивается с 1384.5 до 1389.5, identity — с 46.2% до 46.8%, similarity — с 61.9% до 62.7%.

Это показывает, что белки IlvD гомологичны практически по всей длине. Небольшое улучшение локального выравнивания объясняется исключением отдельных хуже сопоставимых участков, но принципиально новой картины по сравнению с глобальным выравниванием оно не даёт.

3.3. PGK_ECOLI — PGK_BACSU

Для пары Pgk различия между глобальным и локальным выравниванием минимальны. Score остаётся тем же — 908.0, identity увеличивается с 47.4% до 48.1%, similarity — с 66.7% до 67.5%, а число гэпов уменьшается с 17 до 14.

Локальное выравнивание начинается с 6-й позиции обеих последовательностей и почти полностью повторяет глобальное. Это означает, что глобальное выравнивание уже хорошо описывает соотношение этих белков, а исключение нескольких крайних позиций почти не влияет на результат. Белки Pgk у E. coli и B. subtilis можно считать гомологичными почти по всей длине.

3.4. Общий вывод по трём гомологичным парам

Во всех трёх случаях локальное выравнивание подтверждает вывод, полученный по глобальному выравниванию: выбранные пары белков гомологичны почти по всей длине. Локальное выравнивание не выявляет отдельных изолированных доменов, а лишь немного улучшает численные показатели за счёт исключения слабее сопоставимых участков, в основном на концах последовательностей.

Наиболее заметный эффект локального выравнивания наблюдается у DnaA, где уменьшается число гэпов и немного растут identity и similarity. У Pgk различия минимальны, поэтому для этой пары глобальное и локальное выравнивания дают практически одинаковую биологическую интерпретацию.

4. Результат применения программ выравнивания к неродственным белкам

В качестве неродственной пары были выбраны белки DNAA_ECOLI и PGK_BACSU. DnaA является инициатором репликации хромосомы, а Pgk — фосфоглицераткиназой, то есть эти белки относятся к разным функциональным классам.

4.1. Глобальное выравнивание

Для глобального выравнивания были получены следующие значения:

  • ID 1: DNAA_ECOLI
  • ID 2: PGK_BACSU
  • Score: 55.5
  • % Identity: 12.7%
  • % Similarity: 20.6%
  • Gaps: 363
  • Indels: 23

Такие показатели значительно хуже, чем у гомологичных пар. Особенно заметны очень низкие identity и similarity, а также большое число гэпов. Это говорит о том, что глобальное выравнивание формально построено, но с биологической точки зрения малоинформативно: алгоритм вынужден сопоставлять две несходные последовательности по всей длине.

4.2. Локальное выравнивание

Для локального выравнивания были получены следующие значения:

  • ID 1: DNAA_ECOLI
  • ID 2: PGK_BACSU
  • Score: 70.0
  • % Identity: 19.9%
  • % Similarity: 33.4%
  • Gaps: 107
  • Indels: 15

Локальное выравнивание охватывает участок с 209 по 463 позицию у DNAA_ECOLI и с 97 по 308 позицию у PGK_BACSU. Покрытие составляет 54.6% и 53.8% соответственно.

Хотя локальное выравнивание даёт более высокие значения identity и similarity, эти показатели всё равно остаются низкими. Кроме того, покрытие составляет лишь около половины длины каждой последовательности, а число гэпов остаётся большим. Поэтому найденное локальное сходство не является убедительным доказательством гомологии.

4.3. Вывод по неродственной паре

Сравнение DNAA_ECOLI и PGK_BACSU показывает различие между формальным выравниванием и биологически значимым сходством. Глобальное выравнивание имеет очень низкие показатели и большое число гэпов, а локальное находит только ограниченный участок слабого сходства. Следовательно, результаты не подтверждают гомологию этих белков.

5. Множественное выравнивание белков и импорт в Jalview

Для множественного выравнивания была выбрана мнемоника PGK. Рекомендованное полное имя белка из Escherichia coli K-12 — Phosphoglycerate kinase. В базе Swiss-Prot по запросу reviewed:true AND id:PGK_* было найдено 679 записей, идентификаторы которых начинаются с PGK.

Для анализа были выбраны 7 белков:

  • PGK_ECOLI
  • PGK_BACSU
  • PGK_ENTFA
  • PGK_STRTH
  • PGK_LACJO
  • PGK_COXBU
  • PGK_KORVE

Как выполнялось выравнивание

Последовательности были скачаны из UniProt в формате FASTA по следующим идентификаторам: P0A799, P40924, Q833I9, Q03IS8, P62413, Q83AU6 и Q1INK7. Затем семь FASTA-файлов были объединены в файл pgk7.fasta. Множественное выравнивание выполнялось программой clustalo, результат был сохранён в файле pgk7.aln.fasta и импортирован в Jalview. В Jalview колонки выравнивания были окрашены по схеме Percentage Identity.

Файл проекта Jalview: pgk7_project.jvp

Комментарии к выравниванию

По полученному множественному выравниванию видно, что все белки в целом выровнялись достаточно хорошо. В выравнивании присутствуют протяжённые участки, где у большинства последовательностей наблюдаются одинаковые или химически сходные аминокислоты. Сильно выбивающейся последовательности среди представленных белков не видно: все они сохраняют общий рисунок выравнивания. У отдельных последовательностей имеются вставки и делеции, однако они в основном сосредоточены в ограниченных участках и не нарушают сопоставление основных консервативных блоков.

Все представленные белки, по-видимому, являются гомологичными. Об этом свидетельствуют хорошее выравнивание по большей части длины, наличие общих консервативных мотивов и сходный характер замен аминокислот. Совпадения распределены не случайно, а образуют несколько выраженных блоков, что характерно для родственных белков с общей эволюционной историей.

В выравнивании заметна выраженная блочная структура: более консервативные участки чередуются с менее консервативными и более вариабельными областями.

Консервативные участки

В выравнивании не стоит выделять слишком длинные консервативные блоки, так как даже в визуально хорошо сохраняющихся областях встречаются отдельные вариабельные колонки. Более корректно отметить несколько коротких участков с высокой консервативностью:

  • столбцы 23–25 — участок NVP; в этих колонках аминокислоты практически полностью совпадают у всех последовательностей;
  • столбцы 59–63 — участок SHLGR; это один из наиболее хорошо выраженных консервативных мотивов в начале выравнивания;
  • столбцы 161–163 — участок DAF; эти позиции хорошо сохраняются у всех представленных белков.

Эти участки можно считать наиболее надёжными консервативными фрагментами, так как они состоят из конкретных колонок с высокой степенью совпадения, а не из длинных областей, внутри которых есть как консервативные, так и неконсервативные позиции.

Менее консервативные участки

Менее консервативные области в этом выравнивании выражены не как длинные полностью вариабельные блоки, а как отдельные короткие участки с повышенным числом замен и гэпов. Наиболее заметны следующие позиции:

  • столбцы 86–94 — в этом участке у части последовательностей присутствуют гэпы, тогда как у других есть аминокислотные вставки. Поэтому сопоставление позиций здесь менее надёжное, чем в соседних консервативных колонках;
  • столбцы 102–111 — участок также выглядит вариабельным: в одних последовательностях здесь находятся аминокислоты, а в других — пропуски. Кроме того, состав аминокислот между последовательностями заметно различается;
  • столбцы 127–135 — область с несколькими гэпированными позициями и различиями между последовательностями. Хотя рядом с ней есть хорошо сохраняющиеся колонки, сам этот короткий участок нельзя считать консервативным;
  • столбцы 176–181 — здесь видна вставка/делеция: у части белков стоят гэпы, у других — разные аминокислоты. Поэтому этот участок относится к менее консервативным;
  • столбцы 276–282 — вариабельная область с заметными различиями между последовательностями и нарушением регулярного совпадения аминокислот. Она расположена между более хорошо выровненными соседними участками;
  • столбцы 416–421 — ближе к C-концу выравнивания снова появляется участок с гэпами и различиями по длине, поэтому его также лучше отнести к менее консервативным.

Вывод по множественному выравниванию

Множественное выравнивание показывает, что представленные белки хорошо сопоставляются друг с другом по большей части длины и, по-видимому, принадлежат к одному гомологичному семейству. Выравнивание имеет выраженную внутреннюю структуру: в нём выделяются короткие хорошо консервативные мотивы, чередующиеся с более вариабельными участками. Наиболее надёжные консервативные фрагменты соответствуют отдельным колонкам или коротким сериям колонок с высокой степенью совпадения, тогда как менее консервативные участки чаще связаны с небольшими вставками, делециями и более свободной заменяемостью аминокислот.