Пракикум 12: Алгоритмы и программы множественного выравнивания. Базы гомологичных доменов
Выравнивание одних и тех же последовательностей разными программами
Для сравненния были использованы белки с мнемоникой TBP: TATA-связывающие белки мыши (Mus musculus) и сирийского хомячка (Mesocricetus auratus). Для проведения множественного выравнивания также взяла белки других млекопитающих, таких как человек (Homo sapiens), макак-крабоед (Macaca fascicularis) и бык (Bos taurus). Это позволило соблюдать условия относительно небольшой длины белков, близкого эволюционного расстояния и консервативности, что важно для этого транскрипционного фактора, на который действует стабилизирующий отбор.
Сравнивала двумя* программами: Muscle и Clustal.
- *очень хотелось тремя, но Jalview сдох и напрочь отказывался что-то еще анализировать
Результаты
Различий получилось не очень много. Чтобы понять, почему, кратко разберем методы. Clustal сначала выполняет попарное выравнивание последовательностей, строит дерево методом Neighbor-joining и на его основе создает глобальное выравнивание. Muscle действует схожим образом, но сначала делает черновое выравнивание и несколько раз его пересчитывает. Muscle был создан как оптимизация Clustal. Clustal использует итеративный алгоритм, где ошибки ранних этапов вряд ли исправляются позже, в то время как Muscle применяет прогрессивный алгоритм, позволяющий повторно оптимизировать выравнивание. Вероятно, Clustal менее чувствителен к гэпам.
Совпадающие блоки (номера колонок) | 1-57, 93-339 |
---|---|
Несовпадающие блоки (номера колонок) | 58-92 |
Выравнивание по совмещению структур и сравнение его с выравниванием программой MSA
Для сравнения был выбран домен PF00108 (Thiolase, N-terminal domain).
- 1afw - THE 1.8 ANGSTROM CRYSTAL STRUCTURE OF THE DIMERIC PEROXISOMAL THIOLASE OF SACCHAROMYCES CEREVISIAE
- 1nl7 - Z. ramigera biosynthetic thiolase, acetylated enzyme complexed with CoA at pH 9.5
- 1m1t - Biosynthetic thiolase, Q64A mutant
Из результатов выравнивания можно сделать вывод, что раз структурное выравнивание и выравнивание с помощью Muscle так похожи, то, скорее всего, белок несет важную жизненную функцию и не должен подвергаться большим модификациям. Также можно заметить, что есть несколько довольно больших совпадающих блоков, скорее всего, эти аминокислоты входят в каталитический центр.
Структурное выравнивание | Muscle | |
---|---|---|
Совпадающие блоки (номера колонок) | 10-23, 28-49, 58-137, 192-236, 248-270, 274-400, 405-427 | 10-23, 28-49, 58-137, 169-203, 225-247, 251-377, 382-404 |
Несовпадающие блоки (номера колонок) | 1-9, 24-27, 50-57, 138-191, 237-247, 271-273, 401-404 | 1-9, 24-27, 50-57, 138-168, 204-224, 248-250, 378-381 |
Описание программы MSA
MAFFT (Multiple Alignment using Fast Fourier Transform) — это метод множественного выравнивания последовательностей, основанный на быстром преобразовании Фурье. Он подходит для средних и больших выравниваний.
- Алгоритм MAFFT включает следующие этапы:
- Построение матрицы расстояний на основе количества общих шестиричных кортежей.
- Построение направляющего дерева:
- Для каждой пары последовательностей создается парное выравнивание.
- Вес парного выравнивания преобразуется в расстояние между последовательностями.
- Создается матрица расстояний, по которой строится направляющее дерево.
- Прогрессивное выравнивание с оценкой логарифмического ожидания, выполняемое от листьев к корню направляющего дерева.
- Перестройка направляющего дерева.
- Перевыравнивание
Для ускорения первоначального расчета матрицы расстояний MAFFT сжимает аминокислотный алфавит из 20 символов до 6 символов. Затем выполняется первоначальное прогрессивное выравнивание с использованием сжатого алфавита, что значительно ускоряет расчет. После этого MAFFT выполняет второе прогрессивное выравнивание с полным 20-символьным алфавитом, обеспечивая высокую точность результата.
Этот метод, называемый "быстрым деревом", аналогичен опции быстрого дерева в ClustalW. MAFFT использует два эвристических алгоритма выравнивания, что позволяет эффективно выравнивать длинные последовательности с высокой точностью и скоростью, превосходя другие программы, такие как T-Coffee.