Выравнивание последовательностей

Глобальное парное выравнивание гомологичных белков

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein NameID 1ID 2 Score% Identity% Similarity GapsIndels
6-phosphogluconate dehydrogenase, decarboxylating6PGD_ECOLI6PGD_BACSU1718.0 70.0%83.4%33
6-phosphogluconolactonase6PGL_ECOLI6PGL_BACSU304.5 25.3%42.0%6212
Aconitate hydratase AACNA_ECOLIACNA_BACSU2647.5 56.4%71.7%186


Локальное парное выравнивание гомологичных белков

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein NameID 1ID 2 Score% Identity% Similarity GapsIndelsCoverage 1 Coverage 2
6-phosphogluconate dehydrogenase, decarboxylating6PGD_ECOLI6PGD_BACSU1719.0 70.1%83.6%33 99.8%99.8%
6-phosphogluconolactonase6PGL_ECOLI6PGL_BACSU317.0 30.6%48.7%166 94.0%94.0%
Aconitate hydratase AACNA_ECOLIACNA_BACSU2647.5 56.6%71.9%165 100.0%99.8%

Комментарии к выравниваниям

6PGD (6-phosphogluconate dehydrogenase, decarboxylating).

Тут оба выравнивания очень похожи: одинаковое число гэпов, почти одинаковый процент идентичности (70% против 70.1%) и сходства, даже индели совпали (по 3). Покрытие в локальном близко к 100%, то есть белки гомологичны почти целиком, не только отдельными кусками. Глобальное выравнивание здесь полностью информативно — локальное дало практически ту же картину. Ничего принципиально нового не показало.

6PGL (6-phosphogluconolactonase).

А вот тут разница заметная. В глобальном выравнивании % идентичности всего 25.3%, гэпов аж 62, инделей 12. Похоже, что белки довольно сильно различаются по длине и структуре. Зато локальное выравнивание выдало 30.6% идентичности, гэпов стало всего 16, инделей 6 — то есть видно, что water «вырезал» самый похожий кусок. По покрытию получилось около 94% для обоих белков, то есть гомологичный участок — это почти вся последовательность, но не совсем. В глобальном выравнивании, видимо, из-за попытки растянуть его на всю длину набралось много лишних гэпов. Локальное в этом случае гораздо информативнее — оно показывает, что белки родственны, но только на большей части, а не от начала и до конца.

ACNA (Aconitate hydratase A).

Здесь картинка смешанная. Проценты сходства и идентичности в обоих выравниваниях почти одинаковые (56.4% против 56.6%), но количество гэпов сильно различается: в глобальном их 18, а в локальном — 16. Инделей тоже меньше: 6 против 5. При этом покрытие в локальном для E. coli — 100%, для B. subtilis — 99.8%, то есть выровнялись почти целиком. Получается, что локальное выравнивание не отрезало большие куски, а просто немного «подправило» выравнивание, убрав несколько лишних гэпов. Оба подхода тут информативны, но локальное чуть аккуратнее.


Что касается букв, которые сопоставлены в одном выравнивании, но не сопоставлены в другом — в моих данных такого явно не видно, потому что разница в основном в количестве гэпов, а не в перескоке аминокислот в другие колонки. Возможно, если бы белки были ещё более разными, локальное выравнивание могло бы сопоставить фрагменты, которые глобальное разнесло бы в разные места из-за штрафов за гэпы.


Результат применения программ выравнивания к неродственным белкам

Таблица 3. Характеристики парного выравнивания неродственных белков
Alignment typeID 1ID 2 Score% Identity% Similarity GapsIndelsCoverage 1 Coverage 2
Global (needle)6PGD_ECOLIACNA_BACSU68.0 12.2%20.1%59350 --
Local (water)88.020.4%31.6% 2083693.8%60.3%

Для пары неродственных белков 6PGD_ECOLI и ACNA_BACSU глобальное выравнивание (needle) дало низкие показатели: 12.2% идентичности и 20.1% сходства. Большое число гэпов (593) и высокое количество инделей (50) указывают на отсутствие эволюционной связи между последовательностями.

Локальное выравнивание (water) показало несколько лучшие результаты: 20.4% идентичности и 31.6% сходства. Программа выделила короткий участок с относительно лучшим совпадением, однако эти значения всё равно остаются очень низкими. Покрытие для 6PGD_ECOLI составило 93.8%, для ACNA_BACSU — 60.3%, то есть гомологичный фрагмент нашёлся только в части второй последовательности.

Таким образом, оба метода подтверждают, что выбранные белки не являются гомологичными. Проценты идентичности и сходства слишком низкие, чтобы говорить о родстве.

Множественное выравнивание белков и импорт в Jalview

В Swiss-Prot было найдено 53 белка с идентификатором, начинающимся мнемоникой 6PGD (рекомендованное полное имя белка из ECOLI: 6-phosphogluconate dehydrogenase, decarboxylating). Помимо ECOLI и BACSU, я выбрала среди них следующие пять:

Мой проект Jalview можно найти, перейдя по ссылке.

Последовательности семи белков (6PGD_ECOLI, 6PGD_BACSU и пяти выбранных) были загружены из базы Swiss-Prot с помощью программы seqret. Множественное выравнивание выполнено программой MAFFT. Результат сохранён в формате FASTA и импортирован в Jalview.

Выравнивание показало, что все семь последовательностей гомологичны. В выравнивании можно выделить наиболее консервативные участки: 13-25, 124-139, 142-149, 182-199 колонки, и менее консервативные: 5-7, 26-29 колонки.