Практикум 12

2.Сравнение выравниваний сделанных с помощью разных программ

Для данного задания я выбрал фермент Глутамат-1-полуальдегид-2,1-аминомутаза (EC:5.4.3.8) у разных организмов. Для выравнивания я выбрал алгоритмы Mafft, MUSCLE и Clustalw. В ходе данного задания я рассмотрел 3 группы по 10 гомологичных белков и выравнивания с помощью 3ех алгоритмов для каждой группы белков оказывались практически идентичны. Тем не менее я решил остановиться на данной группе белков, выравнивания я сравнил с помощью чужого скрипта на python. Скрипт: ac.py.

Mafft MUSCLE
длина выравнивания 484 484
процент выравненных колонок 98.76 98.76
блок 1 (56-212) (56-212)
блок 2 (216-396) (216-396)
блок 3 (398-416) (398-416)
блок 4 (421-484) (421-484)
Mafft Clustlal
длина выравнивания 484 484
процент выравненных колонок 98.76 98.76
блок 1 (58-212) (58-212)
блок 2 (218-248) (218-248)
блок 3 (250-417) (250-417)
блок 4 (421-484) (421-484)


С помощью программы VerAlign я сравнил CS и SP score для данных выравниваний. SC score это доля одинаково выровненных пар в первом выравнивании относительно второго, а CS это доля одинаково выравненных колонок. Как можно заметить разница в районе погрешности.

SP score CS score avg_SPdist score
Mafft+MUSCLE 0.99 0.99 1.00
MAfft+ClustalW 0.99 0.98 1.00



Как можно заметить алгоритмы практически идентично справились с данным выравниванием за исключением отдельных столбцов.



Сыллки на проекты Jalview:


mafft.jvp muscle.jvp clustal.jvp

3.Выравнивание с помощью совмещения структур и его сравнения с MSA алгоритмами

Для данного задания я решил повторно рассмотреть белки домена Цитохром С (PF00034). Были выбраны 3 структуры из трех разных организмов:
1. PDB ID: 1A8C из бактерии Nitrosomonas europaea
2. PDB ID: 1AKK из лошади Equus caballus
3. PDB ID: 1CCH из бактерии Stutzerimonas stutzeri

Далее я использовал Pairwise Structure Alignment на сайте PDB, в качестве референса я взял 1A8C. Результаты можно видеть ниже.

Entry Chain RMSD TM-score Identity Aligned Residues Sequence Length Modeled Residues
1A8C А - - - - 81 81
1AKK А 3.1 0.57 16% 64 104 104
1CCH А 2.14 0.75 57% 76 82 82



Как можно заметить выравнивание Бактериального Цитохрома С у 1A8C и 1CCH имеет гораздо большее количество идентичных аминокислот. Так же и гораздо большим сходство обладает 3ех мерная структура что отчетливо видно на рисунке ниже. У Цитохрома С полученного из лошади можно заметить дополнительную альфа-спираль которая отсутсвуют у бактериальных.

Responsive image
Рис. 1 Совмещений структур с помощью TM-align. 1A8C - оранжевый, 1AKK синий, 1CCH - зеленый.



Результат выравнивания я скачал в формате fasta и дополнинл последнюю последовательность гэпами таким образом чтобы общее выравнивание 3ех последовательностей имело смысл.
Ссылка: проект JalView

Затем было сделано выравнивание данных последовательностейц с помощью Mafft.
Ссылка: проект JalView

Как можно заметить в выравнивании этих последовательностей алгоритмом MSA полностью согласуется с тем что мы видим на пространственной структуре, у 1AKK с 39-53 позицию можно увидеть невыравненный участок который судя по аминокислотному составу и является альфа спиралью что видна в пространственном выравнивании. Далее я сравнил выравнивания из PDB и полученное с помощью работы mafft. Длина первого выравнивания - 116, второго - 117, Выравнивания достаточно сильно различаются. Имеется 4 совпадающих блока.

4.Описание программы MUSCLE

Muscle - это алгоритм множетсвенного выравнивания разработанный в 2004 году компанией drive5, оригинальный алгоритм придуман Робертом Эдгаром. Исходный код программы доступен на гитхаб однако программа проприетарная.
Данный алгоритм относится к прогрессивным алгоритмам множественного выравнивания и выполняется в 3 этапа.

1 этап "Набросок прогрессивного выравнивания". На данном этапе множетсвенного выравнивания алгоритм сравнивает все k-меры(слова) каждой входящей последовательности чтобы создать матрицу расстояний для последовательностей. Затем он начинает строить бинарное дерево с помощью алгоритма UPGMA. Он попарно располагает в листьях выравнивания с наибольшим весом, два выравнивания образуют узел, затем узлы выравниваются уже относительно друг друга и после выравнивания они образуют новые узлы до тех пор пока алгоритм не дойдет до корня дерева. Данный этап нацелен на быстроту исполнения.

2 этап "Улучшенное прогрессивное выравнивание". На данном этапе алгоритм стремится к более оптимальному дереву с учетом эволюционной дистанции для каждого узла предыдущего выравнивания. Процесс практически идентичен первому этапу однако если какой-то участок второго дерева отличается от первого то они попарно перевыравниваются.

3 этап "Финальная обработка". На этом этапе последовательно от листьев к корню удаляются ребра дерева, далее дерево разделяется на два поддерева. Затем для каждого поддерева вычисляется множественное выравнивание. Если SP score улучшается, новое выравнивание сохраняется, в противном случае оно отбрасывается. Процесс удаления ребер и выравнивания повторяется до тех пор, пока результаты не сойдуться или не будет достигнут определенный пользователем предел.

Сложность вычисления и выводы. Данный алгоритм имеет сложность О-большое от (N^2L + NL^2) где N - колво последовательностей а L - длина выравнивания. С стадией Финальной обработки сложность алгоритма увеличивается на O-большое от (N^3L). MUSCLE часто используется как замена для Clustal так как как правило дает более правильные выраавнивания а так же значительно быстрее второго.

Responsive image
Рис. 3 Блок-схема работы алгоритма MUSCLE.