Выравнивание последовательностей

1. Программа подсчёта инделей

Программа indels.py разработана для анализа файлов выравнивания, полученных с помощью алгоритмов Нидлмана-Вунша (глобальное) и Смита-Ватермана (локальное). Программа принимает имя файла в качестве аргумента командной строки и выводит количество инделей (групп подряд идущих гэпов) для каждой из двух последовательностей, а также их сумму.

Программа

2. Глобальное парное выравнивание гомологичных белков

Для анализа были выбраны три пары гомологичных белков из Escherichia coli (штамм K12) и Bacillus subtilis (штамм 168), имеющих одинаковые мнемоники функции в Swiss-Prot. Выравнивание выполнялось с помощью программы NCBI Needleman-Wunsch Global Align (Protein), являющаяся реализацией алгоритма Нидлмана-Вунша, с параметрами по умолчанию (матрица BLOSUM62, штраф за открытие гэпа = 10, штраф за продолжение гэпа = 0.5).

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
6-phosphogluconate dehydrogenase, decarboxylating 6PGD_ECOLI 6PGD_BACSU 1712 70.0% 83.4% 3 3
Acetate kinase ACKA_ECOLI ACKA_BACSU 796 43.3% 63.0% 13 9
Acylphosphatase ACYP_ECOLI ACYP_BACSU 122 39.0% 54.5% 5 3

3. Локальное парное выравнивание гомологичных белков

Для тех же трёх пар белков было выполнено локальное выравнивание с помощью программы NCBI Protein BLAST (BLASTP) с опцией "Align two or more sequences" с параметрами по умолчанию.

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage ECOLI Coverage BACSU
6-phosphogluconate dehydrogenase, decarboxylating 6PGD_ECOLI 6PGD_BACSU 1783 70.0% 83.4% 3 3 99.8% 99.8%
Acetate kinase ACKA_ECOLI ACKA_BACSU 816 43.3% 64.0% 11 8 99.3% 98.7%
Acylphosphatase ACYP_ECOLI ACYP_BACSU 150 43.0% 60.5% 0 0 81.5% 81.3%

4. Комментарии к выравниваниям

4.1. 6-фосфоглюконатдегидрогеназа (6PGD_ECOLI х 6PGD_BACSU)

Белки являются высоко гомологичными по всей длине. Глобальное выравнивание показывает 70.0% идентичности и 83.4% сходства при минимальном числе гэпов (всего 3) и инделей (3). Это свидетельствует о высокой консервативности 6-фосфоглюконатдегидрогеназы в процессе эволюции и отсутствии крупных вставок или делеций.
Локальное выравнивание даёт практически идентичные результаты: Score = 1783, покрытие составляет 99.8% для обоих белков, что подтверждает гомологию на всём протяжении последовательностей. В данном случае локальное выравнивание не является более информативным, чем глобальное, так как алгоритм Смита-Ватермана не выявил участков, которые следовало бы исключить из выравнивания. Белки гомологичны по всей длине, и оба метода дают адекватное представление об их сходстве.

4.2. Ацетаткиназа (ACKA_ECOLI x ACKA_BACSU)

Белки являются гомологичными, однако степень сходства ниже, чем у 6PGD: 43.3% идентичности и 63.0% сходства в глобальном выравнивании. Количество гэпов (13) и инделей (9) также выше, что указывает на присутствие нескольких участков с вставками/делециями, накопившимися в ходе эволюции этих белков у E. coli и B. subtilis.
Локальное выравнивание показывает покрытие 99.3% и 98.7% для белков E. coli и B. subtilis соответственно. Это говорит о том, что, несмотря на наличие вариабельных участков, белки гомологичны практически по всей длине, и алгоритм Смита-Ватермана не стал исключать значительные фрагменты. Локальное выравнивание в данном случае несколько более информативно, так как позволяет увидеть, что даже при наличии делеций и вставок консервативное ядро белка сохраняется, а покрытие остаётся высоким. Различия между глобальным и локальным выравниваниями незначительны, что подтверждает общее эволюционное происхождение этих белков.

4.3. Ацилфосфатаза (ACYP_ECOLI x ACYP_BACSU)

Белки демонстрируют умеренную степень сходства: 39.0% идентичности и 54.5% сходства в глобальном выравнивании. Это самый низкий показатель среди трёх рассмотренных пар. Однако наличие сходства выше случайного и присутствие консервативных остатков, характерных для ацилфосфатаз, подтверждает гомологию этих белков.
Локальное выравнивание показывает значительно меньшее покрытие: 81.5% для белка E. coli и 81.3% для белка B. subtilis. При этом в локальном выравнивании отсутствуют гэпы и индели (0), что говорит о том, что алгоритм Смита-Ватермана выделил наиболее консервативный участок (ядро белка), который выровнялся без делеций и вставок, и отбросил менее консервативные концевые фрагменты.

В данном конкретном случае локальное выравнивание значительно более информативно, чем глобальное. Оно чётко показывает, что:

  1. Белки содержат гомологичный домен (вероятно, каталитический), который хорошо выравнивается.
  2. Остальные участки (примерно 19% длины каждого белка) недостаточно консервативны, чтобы быть включёнными в оптимальное локальное выравнивание.
  3. Те пары остатков, которые были сопоставлены в глобальном выравнивании за пределами консервативного ядра, скорее всего, не являются истинно гомологичными, а были "натянуты" алгоритмом Нидлмана-Вунша в силу его стремления выровнять всю длину последовательностей. Локальное выравнивание в этом случае даёт биологически более осмысленную картину.

5. Результат применения программ выравнивания к неродственным белкам

Для анализа были выбраны два белка Escherichia coli (штамм K12) с разными мнемониками функций: ENO_ECOLI (енолаза, 432 а.о.) и G6PI_ECOLI (глюкозо-6-фосфат изомераза, 549 а.о.). Оба белка являются ферментами гликолиза, но катализируют разные реакции и принадлежат к разным эволюционным семействам, то есть не являются гомологами.

5.1. Глобальное выравнивание (NCBI Needleman-Wunsch Global Align)

Глобальное выравнивание было выполнено, несмотря на отсутствие гомологии. Результат представлен в таблице ниже. Алгоритм Нидлмана-Вунша в силу своей природы пытается выровнять последовательности по всей длине, что приводит к артефициальному результату.

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Enolase x G6P isomerase ENO_ECOLI G6PI_ECOLI -157 16.8% 29.1% 159 25

Примечание: Отрицательный Score (-157), крайне низкий процент идентичности (16.8%) и огромное количество гэпов (159 из 570 позиций, то есть 27%) свидетельствуют о том, что белки не являются гомологами. Глобальное выравнивание в данном случае биологически бессмысленно.

5.2. Локальное выравнивание (NCBI BLASTP, Align Two Sequences)

При попытке выполнить локальное выравнивание с помощью NCBI Protein BLAST (BLASTP) с опцией "Align two or more sequences" был получен результат: "No significant similarity found" (значимого сходства не обнаружено).
Это означает, что алгоритм Смита-Ватермана не смог найти ни одного участка локального сходства, который прошёл бы порог значимости. Данный результат является прямым подтверждением отсутствия гомологии между выбранными белками.

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Enolase x G6P isomerase ENO_ECOLI G6PI_ECOLI No significant similarity found

5.3. Комментарии

Сравнение результатов глобального и локального выравнивания.

Енолаза (ENO_ECOLI) и глюкозо-6-фосфат изомераза (G6PI_ECOLI) — это два фермента гликолиза, катализирующие разные реакции. Сравнение их аминокислотных последовательностей с помощью методов биоинформатики полностью подтверждает отсутствие эволюционного родства (гомологии) между ними.

Глобальное выравнивание (алгоритм Нидлмана-Вунша) дало крайне низкие и даже отрицательные показатели: Score = -157, процент идентичности = 16.8%, процент сходства = 29.1%. Отрицательный вес выравнивания означает, что количество несовпадений и гэпов настолько велико, что даже алгоритм, обязанный выровнять последовательности целиком, "штрафуется" больше, чем "вознаграждается" за случайные совпадения. Значение идентичности (16.8%) лишь немногим выше случайного (5% для 20 аминокислот), что указывает на отсутствие даже отдалённого родства. Огромное количество гэпов (159 из 570 позиций, 27%) и инделей (25) говорит о том, что алгоритм был вынужден вставить множество делеций, пытаясь "растянуть" последовательности для выравнивания. Такой результат биологически бессмыслен и является ярким примером того, почему глобальное выравнивание категорически неприменимо к неродственным белкам.
Локальное выравнивание (алгоритм Смита-Ватермана, реализованный в BLASTP) не обнаружило значимого сходства ("No significant similarity found"). Это означает, что даже короткие участки, которые могли бы случайно совпасть, не прошли порог значимости (E-value). В отличие от глобального, локальное выравнивание "отказывается" выравнивать последовательности, не имеющие достоверного сходства, что защищает исследователя от ложных выводов о гомологии.

5.4. Выводы:

  • Белки ENO_ECOLI и G6PI_ECOLI не являются гомологами, что надёжно подтверждается обоими методами.
  • Глобальное выравнивание для неродственных белков создаёт артефакты (отрицательный Score, 27% гэпов, 25 инделей) и не должно использоваться для оценки гомологии.
  • Локальное выравнивание корректно сообщает об отсутствии значимого сходства.
  • Данный пример наглядно демонстрирует, почему для поиска гомологов всегда используется локальное выравнивание (BLAST), а глобальное (needle) — только для заранее известных гомологов.

6. Множественное выравнивание белков и импорт в Jalview

6.1. Выбор белков

Для множественного выравнивания была выбрана мнемоника 6PGD. Рекомендованное полное имя белка из ECOLI: 6-phosphogluconate dehydrogenase, decarboxylating (6-фосфоглюконатдегидрогеназа, декарбоксилирующая).

По запросу 6PGD с фильтром «Reviewed» (Swiss-Prot) в UniProt было найдено 1223 белка. Для множественного выравнивания, помимо обязательных 6PGD_ECOLI и 6PGD_BACSU, были выбраны пять белков из разных таксономических групп, чтобы охватить широкий спектр эволюционного разнообразия:

  • 6PGD_HUMAN — Homo sapiens (человек, млекопитающие, Eukaryota)
  • 6PGD1_YEAST — Saccharomyces cerevisiae (пекарские дрожжи, грибы, Eukaryota)
  • 6PGD1_ARATH — Arabidopsis thaliana (резуховидка Таля, растения, Eukaryota)
  • 6PGD_SALTY — Salmonella typhimurium (сальмонелла, гамма-протеобактерии, Bacteria)
  • 6PGD_SYNY3 — Synechocystis sp. PCC 6803 (цианобактерии, Bacteria)

Таким образом, в выравнивании участвуют 7 последовательностей, представляющих три домена жизни: бактерии (4 белка: 6PGD_ECOLI, 6PGD_BACSU, 6PGD_SALTY, 6PGD_SYNY3) и эукариоты (3 белка: 6PGD_HUMAN, 6PGD1_YEAST, 6PGD1_ARATH — животные, грибы, растения).

6.2. Метод выравнивания

Множественное выравнивание было выполнено с помощью программы MUSCLE (MUltiple Sequence Comparison by Log-Expectation) на сервере EMBL-EBI с параметрами по умолчанию. Последовательности были загружены с UniProt вформате FASTA (canonical) и объединены в один файл. Результат выравнивания был сохранён в формате ClustalW (.aln). MUSCLE является одним из наиболее точных и широко используемых алгоритмов множественного выравнивания, основанным на методе log-expectation.

6.3. Проект Jalview

Файл проекта Jalview: 6PGD_alignment.jvp

6.4. Комментарии к выравниванию

Качество выравнивания.
Все семь последовательностей хорошо выровнялись по всей длине, что подтверждает высокую степень консервативности 6-фосфоглюконатдегидрогеназы в эволюции. Основная длина белков составляет 468–490 аминокислотных остатков. Отличия в длине связаны с двумя особенностями:

  1. наличием N-концевого удлинения у цианобактерии Synechocystis sp. (6PGD_SYNY3, остатки 1–13: MQFNVAIMTKRTR), которое отсутствует у всех остальных организмов.
  2. небольшими C-концевыми удлинениями у эукариотических белков человека (6PGD_HUMAN, 5 остатков SSYNA после позиции 483) и пекарских дрожжей (6PGD1_YEAST, 5 остатков STYQA после позиции 489). У растительного белка 6PGD1_ARATH и бактериальных белков C-концевые удлинения отсутствуют.

Гомология.
Все выбранные белки являются гомологами, то есть произошли от общего предкового белка. Они катализируют одну и ту же реакцию в пентозофосфатном пути: окислительное декарбоксилирование 6-фосфоглюконата до рибулозо-5-фосфата с одновременным восстановлением NADP⁺ до NADPH. Широкое распространение 6PGD (1223 аннотированных белка в Swiss-Prot) свидетельствует о фундаментальной роли этого фермента в метаболизме.

Консервативные и вариабельные участки.
При раскрашивании по проценту идентичности в Jalview выравнивание демонстрирует чётко выраженную структуру. Консервативные участки (тёмно-синий цвет) образуют несколько пространственных кластеров, соответствующих функционально важным элементам белка. Ниже приведены номера столбцов выравнивания (по линейке Jalview):

  • N-концевой участок связывания кофактора NADP⁺ (столбцы 8–56): наиболее плотный консервативный кластер в начале выравнивания, содержащий глицин-богатую петлю (мотив GXGXXG, столбцы 19–28), которая формирует крышку нуклеотид-связывающего кармана. Высокая консервативность остатков глицина в этих позициях критически важна для правильного сворачивания мотива и связывания NADP⁺.
  • Центральный каталитический домен (столбцы 70–320): наиболее протяжённый консервативный регион, охватывающий практически половину выравнивания. Внутри него выделяются:
    • Участок связывания субстрата (столбцы 84–87, 107–112, 136–144, 147–149): остатки, формирующие карман для связывания 6-фосфоглюконата;
    • Каталитический центр (столбцы 175–209, особенно 189–192, 194–209): содержит консервативные остатки, непосредственно участвующие в реакции окислительного декарбоксилирования;
    • Фосфат-связывающий участок (столбцы 211–256): кластер положительно заряженных и полярных остатков, координирующих фосфатную группу субстрата;
    • Ядро каталитического домена (столбцы 260–320): дополнительные консервативные остатки, стабилизирующие трёхмерную укладку активного центра.
  • Структурный линкерный участок (столбцы 334–398): консервативный регион, соединяющий каталитический и димеризационный домены. Консервативность остатков в столбцах 343–357, 364–398 свидетельствует о важности этой области для правильной ориентации доменов относительно друг друга.
  • C-концевой димеризационный домен (столбцы 403–474): кластер консервативных остатков на C-конце белка, ответственный за формирование димерной четвертичной структуры. Димеризация необходима для каталитической активности фермента. Наиболее консервативны столбцы 407–409, 414, 422, 426, 432, 436–437, 440, 442, 450, 452–453, 457–461, 463–474.
  • Вариабельные участки (светлый/белый цвет):
    • Столбцы 1–13 (N-конец): вариабельны из-за наличия N-концевого удлинения исключительно у 6PGD_SYNY3.
    • Столбцы 475–495 (C-конец): вариабельны из-за наличия C-концевых удлинений у 6PGD_HUMAN и 6PGD1_YEAST, а также делеций у бактериальных белков.
    • Поверхностные петли между консервативными блоками также демонстрируют пониженную консервативность, что характерно для участков, не вовлечённых непосредственно в катализ.

6.5. Вывод:

Проведённый анализ множественного выравнивания 6PGD полностью соответствует общим принципам эволюции белковых семейств. Функционально важные участки — кофактор-связывающие, каталитические, димеризационные — находятся под жёстким эволюционным давлением и остаются высоко консервативными от бактерий до человека. В то же время концевые удлинения (как N-концевое у Synechocystis, так и C-концевые у млекопитающих и грибов) являются эволюционно подвижными элементами, которые, по-видимому, не затрагивают каталитическую функцию фермента. Выравнивание наглядно демонстрирует эти эволюционные закономерности и подтверждает высокую информативность множественного выравнивания для анализа структуры и функции белков.