Выравнивание последовательностей
Глобальное парное выравнивание гомологичных белков
Локальное парное выравнивание гомологичных белков
Комментарии к выравниваниям
6PGD (6-phosphogluconate dehydrogenase, decarboxylating).
Тут оба выравнивания очень похожи: одинаковое число гэпов, почти одинаковый процент идентичности (70% против 70.1%) и сходства, даже индели совпали (по 3). Покрытие в локальном близко к 100%, то есть белки гомологичны почти целиком, не только отдельными кусками. Глобальное выравнивание здесь полностью информативно — локальное дало практически ту же картину. Ничего принципиально нового не показало.
6PGL (6-phosphogluconolactonase).
А вот тут разница заметная. В глобальном выравнивании % идентичности всего 25.3%, гэпов аж 62, инделей 12. Похоже, что белки довольно сильно различаются по длине и структуре. Зато локальное выравнивание выдало 30.6% идентичности, гэпов стало всего 16, инделей 6 — то есть видно, что water «вырезал» самый похожий кусок. По покрытию получилось около 94% для обоих белков, то есть гомологичный участок — это почти вся последовательность, но не совсем. В глобальном выравнивании, видимо, из-за попытки растянуть его на всю длину набралось много лишних гэпов. Локальное в этом случае гораздо информативнее — оно показывает, что белки родственны, но только на большей части, а не от начала и до конца.
ACNA (Aconitate hydratase A).
Здесь картинка смешанная. Проценты сходства и идентичности в обоих выравниваниях почти одинаковые (56.4% против 56.6%), но количество гэпов сильно различается: в глобальном их 18, а в локальном — 16. Инделей тоже меньше: 6 против 5. При этом покрытие в локальном для E. coli — 100%, для B. subtilis — 99.8%, то есть выровнялись почти целиком. Получается, что локальное выравнивание не отрезало большие куски, а просто немного «подправило» выравнивание, убрав несколько лишних гэпов. Оба подхода тут информативны, но локальное чуть аккуратнее.
Что касается букв, которые сопоставлены в одном выравнивании, но не сопоставлены в другом — в моих данных такого явно не видно, потому что разница в основном в количестве гэпов, а не в перескоке аминокислот в другие колонки. Возможно, если бы белки были ещё более разными, локальное выравнивание могло бы сопоставить фрагменты, которые глобальное разнесло бы в разные места из-за штрафов за гэпы.
Результат применения программ выравнивания к неродственным белкам
Для пары неродственных белков 6PGD_ECOLI и ACNA_BACSU глобальное выравнивание (needle) дало низкие показатели: 12.2% идентичности и 20.1% сходства. Большое число гэпов (593) и высокое количество инделей (50) указывают на отсутствие эволюционной связи между последовательностями.
Локальное выравнивание (water) показало несколько лучшие результаты: 20.4% идентичности и 31.6% сходства. Программа выделила короткий участок с относительно лучшим совпадением, однако эти значения всё равно остаются очень низкими. Покрытие для 6PGD_ECOLI составило 93.8%, для ACNA_BACSU — 60.3%, то есть гомологичный фрагмент нашёлся только в части второй последовательности. Таким образом, оба метода подтверждают, что выбранные белки не являются гомологичными. Проценты идентичности и сходства слишком низкие, чтобы говорить о родстве.Множественное выравнивание белков и импорт в Jalview
В Swiss-Prot было найдено 53 белка с идентификатором, начинающимся мнемоникой 6PGD (рекомендованное полное имя белка из ECOLI: 6-phosphogluconate dehydrogenase, decarboxylating). Помимо ECOLI и BACSU, я выбрала среди них следующие пять:
- 6PGD_HUMAN
- 6PGD_MOUSE
- 6PGD_RAT
- 6PGD_DROME
- 6PGD_SCHPO
Мой проект Jalview можно найти, перейдя по ссылке.
Последовательности семи белков (6PGD_ECOLI, 6PGD_BACSU и пяти выбранных) были загружены из базы Swiss-Prot с помощью программы seqret. Множественное выравнивание выполнено программой MAFFT. Результат сохранён в формате FASTA и импортирован в Jalview.
Выравнивание показало, что все семь последовательностей гомологичны. В выравнивании можно выделить наиболее консервативные участки: 13-25, 124-139, 142-149, 182-199 колонки, и менее консервативные: 5-7, 26-29 колонки.