Для сравнения выравнивания разными программами были выбраны следующие последовательности:
Далее в Jalview были сделаны выравнивания с помощью программ muscle (ссылка на выравнивание) и mafft (ссылка на выравнивание). Я сравнил эти выравнивания, используя прграмму Лизы Плешко.
Команда: python compare_alig.py -a1 muscle.fa -a2 mafft.fa -o res.csv
Вывод программы:
Ссылка на файловую выдачу программы.
Muscle | 18-41 | 62-181 | 196-205 | 223-232 | 257-276 | 286-327 | 341-358 | 364-374 | 407-415 | 429-451 |
---|---|---|---|---|---|---|---|---|---|---|
MAFFT | 18-41 | 64-183 | 198-207 | 228-237 | 264-283 | 294-335 | 349-366 | 373-383 | 416-424 | 442-464 |
При просмотре двух выравниваний обнаружилось, что в несовпадаюших участках есть большое количество гэпов и различных неидентичных аминокислот. Основываясь на это, можно сделать преположение, что несоответсвия в выравниваниях вызваны различиями в алгоритмах работы программ, так как в основном не совпадалили участки с гэпами (то есть те учаски, которые вряд ли являются консервативными, а потому не подлежат точному выравниванию).
Для данного задания были выбраны первые три белка из задания 1. Выравнивание структур было сделано в Pymol с помощью команды align. На приведенном ниже изображении хорошо видно гомологию данных белков. Далее в Jalview было сделано выравнивание последовательностей данных белков. В нем присутствуют множество идентичных участков, что также сведетельтвует об общности их происхождения.
Muscle использует две величины: k mer (для не выровненных пар) и Kumira (для выровненных).В данной программе можно выделить три этапа:
Этап 1: на данном этапе задача программы с максимальной скоростью (пренебрегая точностью) создать множественное выравнивание. Для каждой пары последовательностей вычисляется расстояние k-mer; из этих данных создается матрица расстояний D1, на основе которой строится двоичное деревно TREE1 с помощью алгоритма класторизации UPGMA. Далее происходит последовательное выравнивание так, что для каждого узла строится его профиль на основе попарного выравнивания профилей его дочерних узлов (построение профилей начинается с вершин дерева). В конце первого этапа мы получаем выравнивание MSA1
Этап 2: после создания TREE1 происходит его переоценка для повышения точности. Программа создает матрицу D2 на основе вычисленных расстояний Kumira, которые являются более точным чем расстояния k mer. После аналогичным первому этапу образом создается дерево TREE2, однако новое выравнивание MSA2 вычисляется только для ветвей, порядок ветвления которых изменился относительно TREE1.
Этап 3: на третьем этапе происходит доработка выравнивания MSA2. Программа, начиная с вершин дерева, разделяет TREE2 на два поддерева путем удаления выбранного ранее ребра. Даллее вычисляется профиль множественного выравнивания для каждого из них по алгоритму описанному в этапе 1. Если значение SP (величина, соответствующая доли совпадающих пар аминокислот в выравнивании) улучшается, новое выравнивание сохраняется, в противном случае оно отбрасывается. Данная оперция повторяется, пока не будет достигнут установленный ползователем предел или сходимость.
Ссылка на статью, на основе которой было сделано описание программы Muscle.