Программа indels.py разработана для анализа файлов выравнивания, полученных с помощью алгоритмов Нидлмана-Вунша (глобальное) и Смита-Ватермана (локальное). Программа принимает имя файла в качестве аргумента командной строки и выводит количество инделей (групп подряд идущих гэпов) для каждой из двух последовательностей, а также их сумму.
Для анализа были выбраны три пары гомологичных белков из Escherichia coli (штамм K12) и Bacillus subtilis (штамм 168), имеющих одинаковые мнемоники функции в Swiss-Prot. Выравнивание выполнялось с помощью программы NCBI Needleman-Wunsch Global Align (Protein), являющаяся реализацией алгоритма Нидлмана-Вунша, с параметрами по умолчанию (матрица BLOSUM62, штраф за открытие гэпа = 10, штраф за продолжение гэпа = 0.5).
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| 6-phosphogluconate dehydrogenase, decarboxylating | 6PGD_ECOLI | 6PGD_BACSU | 1712 | 70.0% | 83.4% | 3 | 3 |
| Acetate kinase | ACKA_ECOLI | ACKA_BACSU | 796 | 43.3% | 63.0% | 13 | 9 |
| Acylphosphatase | ACYP_ECOLI | ACYP_BACSU | 122 | 39.0% | 54.5% | 5 | 3 |
Для тех же трёх пар белков было выполнено локальное выравнивание с помощью программы NCBI Protein BLAST (BLASTP) с опцией "Align two or more sequences" с параметрами по умолчанию.
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage ECOLI | Coverage BACSU |
|---|---|---|---|---|---|---|---|---|---|
| 6-phosphogluconate dehydrogenase, decarboxylating | 6PGD_ECOLI | 6PGD_BACSU | 1783 | 70.0% | 83.4% | 3 | 3 | 99.8% | 99.8% |
| Acetate kinase | ACKA_ECOLI | ACKA_BACSU | 816 | 43.3% | 64.0% | 11 | 8 | 99.3% | 98.7% |
| Acylphosphatase | ACYP_ECOLI | ACYP_BACSU | 150 | 43.0% | 60.5% | 0 | 0 | 81.5% | 81.3% |
Белки являются высоко гомологичными по всей длине. Глобальное выравнивание показывает 70.0%
идентичности и 83.4% сходства при минимальном числе гэпов (всего 3) и инделей (3).
Это свидетельствует о высокой консервативности 6-фосфоглюконатдегидрогеназы в процессе эволюции
и отсутствии крупных вставок или делеций.
Локальное выравнивание даёт практически идентичные результаты: Score = 1783,
покрытие составляет 99.8% для обоих белков, что подтверждает гомологию на всём протяжении последовательностей.
В данном случае локальное выравнивание не является более информативным, чем глобальное,
так как алгоритм Смита-Ватермана не выявил участков, которые следовало бы исключить из выравнивания.
Белки гомологичны по всей длине, и оба метода дают адекватное представление об их сходстве.
Белки являются гомологичными, однако степень сходства ниже, чем у 6PGD: 43.3%
идентичности и 63.0% сходства в глобальном выравнивании. Количество гэпов (13) и инделей (9)
также выше, что указывает на присутствие нескольких участков с вставками/делециями,
накопившимися в ходе эволюции этих белков у E. coli и B. subtilis.
Локальное выравнивание показывает покрытие 99.3% и 98.7% для белков E. coli и B. subtilis соответственно.
Это говорит о том, что, несмотря на наличие вариабельных участков, белки гомологичны практически по всей длине,
и алгоритм Смита-Ватермана не стал исключать значительные фрагменты. Локальное выравнивание в данном случае несколько
более информативно, так как позволяет увидеть, что даже при наличии делеций и вставок консервативное ядро белка сохраняется,
а покрытие остаётся высоким. Различия между глобальным и локальным выравниваниями незначительны,
что подтверждает общее эволюционное происхождение этих белков.
Белки демонстрируют умеренную степень сходства: 39.0% идентичности и 54.5% сходства в глобальном выравнивании.
Это самый низкий показатель среди трёх рассмотренных пар. Однако наличие сходства выше случайного и
присутствие консервативных остатков, характерных для ацилфосфатаз, подтверждает гомологию этих белков.
Локальное выравнивание показывает значительно меньшее покрытие: 81.5% для белка E. coli и 81.3% для
белка B. subtilis. При этом в локальном выравнивании отсутствуют гэпы и индели (0), что говорит о том,
что алгоритм Смита-Ватермана выделил наиболее консервативный участок (ядро белка), который выровнялся без делеций
и вставок, и отбросил менее консервативные концевые фрагменты.
В данном конкретном случае локальное выравнивание значительно более информативно, чем глобальное. Оно чётко показывает, что:
Для анализа были выбраны два белка Escherichia coli (штамм K12) с разными мнемониками функций: ENO_ECOLI (енолаза, 432 а.о.) и G6PI_ECOLI (глюкозо-6-фосфат изомераза, 549 а.о.). Оба белка являются ферментами гликолиза, но катализируют разные реакции и принадлежат к разным эволюционным семействам, то есть не являются гомологами.
Глобальное выравнивание было выполнено, несмотря на отсутствие гомологии. Результат представлен в таблице ниже. Алгоритм Нидлмана-Вунша в силу своей природы пытается выровнять последовательности по всей длине, что приводит к артефициальному результату.
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | |||
|---|---|---|---|---|---|---|---|---|---|---|
| Enolase x G6P isomerase | ENO_ECOLI | G6PI_ECOLI | -157 | 16.8% | 29.1% | 159 | 25 | |||
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Enolase x G6P isomerase | ENO_ECOLI | G6PI_ECOLI | No significant similarity found | |||||||
Сравнение результатов глобального и локального выравнивания.
Енолаза (ENO_ECOLI) и глюкозо-6-фосфат изомераза (G6PI_ECOLI) — это два фермента гликолиза, катализирующие разные реакции. Сравнение их аминокислотных последовательностей с помощью методов биоинформатики полностью подтверждает отсутствие эволюционного родства (гомологии) между ними.
Глобальное выравнивание (алгоритм Нидлмана-Вунша) дало крайне низкие
и даже отрицательные показатели: Score = -157, процент идентичности = 16.8%, процент сходства = 29.1%.
Отрицательный вес выравнивания означает, что количество несовпадений и гэпов настолько велико,
что даже алгоритм, обязанный выровнять последовательности целиком, "штрафуется" больше,
чем "вознаграждается" за случайные совпадения. Значение идентичности (16.8%) лишь немногим выше случайного
(5% для 20 аминокислот), что указывает на отсутствие даже отдалённого родства.
Огромное количество гэпов (159 из 570 позиций, 27%) и инделей (25) говорит о том,
что алгоритм был вынужден вставить множество делеций, пытаясь "растянуть" последовательности для выравнивания.
Такой результат биологически бессмыслен и является ярким примером того,
почему глобальное выравнивание категорически неприменимо к неродственным белкам.
Локальное выравнивание (алгоритм Смита-Ватермана, реализованный в BLASTP) не обнаружило значимого сходства
("No significant similarity found"). Это означает, что даже короткие участки, которые могли бы случайно совпасть,
не прошли порог значимости (E-value). В отличие от глобального, локальное выравнивание
"отказывается" выравнивать последовательности, не имеющие достоверного сходства,
что защищает исследователя от ложных выводов о гомологии.
Для множественного выравнивания была выбрана мнемоника 6PGD. Рекомендованное полное имя белка из ECOLI: 6-phosphogluconate dehydrogenase, decarboxylating (6-фосфоглюконатдегидрогеназа, декарбоксилирующая).
По запросу 6PGD с фильтром «Reviewed» (Swiss-Prot) в UniProt было найдено 1223 белка.
Для множественного выравнивания, помимо обязательных 6PGD_ECOLI и 6PGD_BACSU, были выбраны пять белков
из разных таксономических групп, чтобы охватить широкий спектр эволюционного разнообразия:
Таким образом, в выравнивании участвуют 7 последовательностей, представляющих три домена жизни: бактерии (4 белка: 6PGD_ECOLI, 6PGD_BACSU, 6PGD_SALTY, 6PGD_SYNY3) и эукариоты (3 белка: 6PGD_HUMAN, 6PGD1_YEAST, 6PGD1_ARATH — животные, грибы, растения).
Множественное выравнивание было выполнено с помощью программы MUSCLE (MUltiple Sequence Comparison by Log-Expectation) на сервере EMBL-EBI с параметрами по умолчанию. Последовательности были загружены с UniProt вформате FASTA (canonical) и объединены в один файл. Результат выравнивания был сохранён в формате ClustalW (.aln). MUSCLE является одним из наиболее точных и широко используемых алгоритмов множественного выравнивания, основанным на методе log-expectation.
Файл проекта Jalview: 6PGD_alignment.jvp
Качество выравнивания.
Все семь последовательностей хорошо выровнялись по всей длине, что подтверждает высокую степень консервативности
6-фосфоглюконатдегидрогеназы в эволюции. Основная длина белков составляет 468–490 аминокислотных остатков.
Отличия в длине связаны с двумя особенностями:
Гомология.
Все выбранные белки являются гомологами, то есть произошли от общего предкового белка.
Они катализируют одну и ту же реакцию в пентозофосфатном пути: окислительное декарбоксилирование 6-фосфоглюконата
до рибулозо-5-фосфата с одновременным восстановлением NADP⁺ до NADPH. Широкое распространение 6PGD
(1223 аннотированных белка в Swiss-Prot) свидетельствует о фундаментальной роли этого фермента в метаболизме.
Консервативные и вариабельные участки.
При раскрашивании по проценту идентичности в Jalview выравнивание демонстрирует чётко выраженную структуру.
Консервативные участки (тёмно-синий цвет) образуют несколько пространственных кластеров, соответствующих функционально важным элементам белка.
Ниже приведены номера столбцов выравнивания (по линейке Jalview):
Проведённый анализ множественного выравнивания 6PGD полностью соответствует общим принципам эволюции белковых семейств. Функционально важные участки — кофактор-связывающие, каталитические, димеризационные — находятся под жёстким эволюционным давлением и остаются высоко консервативными от бактерий до человека. В то же время концевые удлинения (как N-концевое у Synechocystis, так и C-концевые у млекопитающих и грибов) являются эволюционно подвижными элементами, которые, по-видимому, не затрагивают каталитическую функцию фермента. Выравнивание наглядно демонстрирует эти эволюционные закономерности и подтверждает высокую информативность множественного выравнивания для анализа структуры и функции белков.