Таблица 1. Cравнение Muscle и Mafft
Параметр | Muscle | Mafft |
---|---|---|
Длина выравнивания | 148 | 148 |
Процент выровненных колонок | 97.30% | 97.30% |
Блок 1 | (1-99) | (1-99) |
Блок 2 | (103-122) | (103-122) |
Таблица 2. Cравнение Muscle и TCoffee
Параметр | Muscle | TCoffee |
---|---|---|
Длина выравнивания | 148 | 147 |
Процент выровненных колонок | 97.30% | 97.96% |
Блок 1 | (1-99) | (1-99) |
Блок 2 | (103-124) | (103-124) |
Таблица 3. Cравнение Mafft и TCoffee
Параметр | Mafft | TCoffee |
---|---|---|
Длина выравнивания | 148 | 147 |
Процент выровненных колонок | 97.30% | 97.96% |
Блок 1 | (1-122) | (1-122) |
Блок 2 | (131-148) | (130-147) |
Можно заметить, что результаты выравнивания программ Mafft и TCoffee между собой похожи больше, чем другие возможные комбинации сравнения этих 3 программ, возможно, это потому что их алгоритмы работают сходным образом. Количество блоков во всех программах совпадет. С 1 по 99 позицию все 3 выравнивания совпадают полностью.
Я выбрала семейство фосфолипаз А2 (PF00068). Далее я выбрала 3 белка: фосфолипаза А2 из индийской кобры, фосфолипаза А2 из тигровой змей и человеческая ассоциированная с мембраной фосфолипаза А2.
Выравнивание, использующее совмещение пространственных структур, было выполнено на PDB с помощью встроенного инструмента Pairwise Structure Alignment. (Рис.1 и Рис.2). Также было проведено множественное выравнивание с помощью программы Muscle в Jalview. Ссылка на файл с проектом Jalview Jalview
Эти выравнивания совпадют почти во всех позициях. Различаются выравнивания С-конца последовательностей. Видно, что в третей последовательности произошла вставка, возможно этот кусок не имеет какую-то важную структурную функцию (например, это выпетливание, а не фрагмент альфа-спирали) и поэтому в PDB - выравнивании этот фрагмент не выглядит как вставка.
Цель первого этапа - произвести множественное выравнивание, делая упор на скорость, а не на точность.
1.1 Расстояние в k-мерах вычисляется для каждой пары входных последовательностей, что дает матрицу расстояний D1.
1.2 Матрица D1 кластеризуется UPGMA, создавая бинарное дерево TREE1.
1.3 Прогрессивное выравнивание строится путем следования порядку ветвления TREE1.
На каждом листе профиль строится на основе входной последовательности.
Узлы в дереве посещаются в порядке: дочерние перед родительскими.
На каждом внутреннем узле создается попарное выравнивание двух дочерних профилей, дающее новый профиль,
который присваивается этому узлу. Это приводит к многократному выравниванию всех входных последовательностей MSA1.
Основным источником ошибок на черновой прогрессивной стадии является приблизительная мера расстояния в k-мерах,
что приводит к неоптимальному дереву. Поэтому MUSCLE повторно оценивает дерево, используя
расстояние Кимуры, которое является более точным, но требует выравнивания.
2.1 Расстояние Кимуры для каждой пары входных последовательностей вычисляется из MSA1, что дает матрицу расстояний D2.
2.2 Матрица D2 кластеризуется UPGMA, создавая бинарное дерево TREE2.
2.3 Последовательное выравнивание производится после TREE2 (аналогично 1.3),
что приводит к множественному выравниванию MSA2. Это оптимизировано путем вычисления выравниваний
только для поддеревьев, порядок ветвления которых изменился относительно TREE1.