Сравнение методов выравнивания

Сравнение выравниваний одних и тех же последовательностей разными программами

Для выполнения задания я выбрала семейство PF00143. Работа с последовательностями началась с создания выравниваний в JalView: Web Service → Alignment → [METHOD] with defaults (METHOD - TCoffee, Muscle и Mafft). Далее с помощью программы macho.py Виталия Гагарочкина, Всеволода Масленникова и Даниила Нагорного было выполнено сравнение выравниваний Muscle с Mafft и TCoffee с Mafft.

Таблица 1. Сравнение выравниваний MAFFT и MUSCLE

Параметр Значение
Длина первого выравнивания (mafft13.fa) 199
Длина второго выравнивания (muscle13.fa) 192
Процент совпадающих колонок для первого выравнивания 52.26%
Процент совпадающих колонок для второго выравнивания 54.17%
Блок Выравнивание_1 (mafft13.fa) Выравнивание_2 (muscle13.fa)
1 (10-12) (9-11)
2 (14-17) (13-16)
3 (20-23) (19-22)
4 (33-39) (32-38)
5 (52-53) (50-51)
6 (58-104) (57-103)
7 (126-126) (125-125)
8 (147-179) (144-176)
9 (192-194) (185-187)

Таблица 2. Сравнение выравниваний MAFFT и T-Coffee

Параметр Значение
Длина первого выравнивания (mafft13.fa) 199
Длина второго выравнивания (tcof13.fa) 199
Процент совпадающих колонок для первого выравнивания 47.24%
Процент совпадающих колонок для второго выравнивания 47.24%
Блок Выравнивание_1 (mafft13.fa) Выравнивание_2 (tcof13.fa)
1 (10-11) (9-10)
2 (14-17) (13-16)
3 (21-22) (20-21)
4 (25-25) (24-24)
5 (36-40) (39-43)
6 (58-104) (62-108)
7 (149-179) (153-183)
8 (193-194) (193-194)

Как можно заметить, результаты работы программы MAFFT и T-Coffee получились очень схожи. Так как программа MAFFT имеет наибольший средний вес сравнения с BALIBASE - банком эталонных выравниваний. Из сравнения следует, что T-Coffee лучше справляется со своей задачей, чем MUSCLE.

Скорее всего так произошло потому что:

  • T-Coffee использует библиотеку попарных выравниваний и учитывает эволюционные связи, что помогает избежать перепредставленности близкородственных последовательностей.
  • MUSCLE оптимизирован для скорости, но может давать менее точные веса.

Ссылки на файлы с выравниваниями:

MAFFT MUSCLE T-Coffee

Построение выравнивания по совмещению структур и сравнение с MSA

Для выполнения задания я выбрала белки 1AU1, 1B5L, 1IFA. По инструкции из подсказок выполнила выравнивание на сайте PDB. Далее эти же структуры я загрузила в JalView и с помощью программы MSA также выполнила выравнивание.

Таблица 3. Сравнение структурного и MSA выравниваний

Блок Выравнивание_1 (msa13.fa) Выравнивание_2 (pr13.fa)
1 (36-46) (38-48)
2 (51-98) (53-100)
3 (110-114) (112-116)
4 (120-165) (122-167)
Параметр Значение
Длина первого выравнивания (msa13.fa) 167
Длина второго выравнивания (pr13.fa) 169
Процент совпадающих колонок для первого выравнивания 65.87%
Процент совпадающих колонок для второго выравнивания 65.09%

По результатам выравнивания оказалось, что они почти идентичны. В данном случае сложно сказать, какое из выравниваний будет явно лучше. Скорее это зависит от ситуации, какова будет цель нашего анализа:

Структурное выравнивание

Преимущества:

  • Точнее отражает пространственную укладку белков (гэпы вставлены так, чтобы Cα-атомы совпадали)
  • Лучше подходит для:
    • Предсказания функциональных сайтов (например, активного центра)
    • Моделирования гомологии структур

Недостатки:

  • Может "пропускать" слабые, но эволюционно важные гомологии

MSA-выравнивание

Преимущества:

  • Учитывает эволюционные взаимосвязи (консервативные замены, редкие аминокислоты)
  • Лучше для:
    • Построения филогенетических деревьев
    • Поиска доменов в белках

Недостатки:

  • Может ошибаться в регионах с низкой гомологией, но важных для структуры

Ссылки на файлы с выравниваниями:

PDB MSA

Описание программы Clustal Omega

Clustal Omega — это популярная программа для множественного выравнивания последовательностей (MSA), которая помогает исследователям сравнивать ДНК или белковые последовательности. Она особенно полезна, когда нужно проанализировать несколько родственных последовательностей и найти между ними общие участки. Программа работает быстро и точно, что делает её удобным инструментом для биоинформатиков и молекулярных биологов.

Одно из главных преимуществ Clustal Omega — её способность работать с большими наборами данных и последовательностями, которые сильно различаются между собой. Программа использует современные алгоритмы, включая скрытые марковские модели (HMM), чтобы обеспечить качественное выравнивание даже в сложных случаях. Пользователь просто загружает последовательности в формате FASTA, выбирает параметры, и Clustal Omega автоматически строит выравнивание, расставляя гэпы и выделяя консервативные участки.

Clustal Omega часто применяют в эволюционных исследованиях, когда нужно понять, как связаны между собой гены или белки разных организмов. Она также помогает находить важные функциональные участки, например, активные центры ферментов или домены белков. Результаты выравнивания можно визуализировать в программах вроде JalView или использовать для построения филогенетических деревьев.

Программа доступна онлайн через сервер EBI, что делает её удобной для тех, кто не хочет устанавливать дополнительное ПО. Кроме того, Clustal Omega поддерживает разные форматы данных, что упрощает работу с результатами. Если нужно быстро и качественно выровнять последовательности, Clustal Omega — отличный выбор, хотя для некоторых задач могут подойти и альтернативы вроде MUSCLE или MAFFT.

Статья: Clustal Omega: улучшенное выравнивание последовательностей