Для данного задания я выбрал фермент Глутамат-1-полуальдегид-2,1-аминомутаза (EC:5.4.3.8) у разных организмов. Для выравнивания я выбрал алгоритмы Mafft, MUSCLE и Clustalw. В ходе данного задания я рассмотрел 3 группы по 10 гомологичных белков и выравнивания с помощью 3ех алгоритмов для каждой группы белков оказывались практически идентичны. Тем не менее я решил остановиться на данной группе белков, выравнивания я сравнил с помощью чужого скрипта на python. Скрипт: ac.py.
Mafft | MUSCLE | |
---|---|---|
длина выравнивания | 484 | 484 |
процент выравненных колонок | 98.76 | 98.76 |
блок 1 | (56-212) | (56-212) |
блок 2 | (216-396) | (216-396) |
блок 3 | (398-416) | (398-416) |
блок 4 | (421-484) | (421-484) |
Mafft | Clustlal | |
---|---|---|
длина выравнивания | 484 | 484 |
процент выравненных колонок | 98.76 | 98.76 |
блок 1 | (58-212) | (58-212) |
блок 2 | (218-248) | (218-248) |
блок 3 | (250-417) | (250-417) |
блок 4 | (421-484) | (421-484) |
С помощью программы VerAlign я сравнил CS и SP score для данных выравниваний. SC score это доля одинаково выровненных пар в первом выравнивании относительно второго, а CS это доля одинаково выравненных колонок. Как можно заметить разница в районе погрешности.
SP score | CS score | avg_SPdist score | |
---|---|---|---|
Mafft+MUSCLE | 0.99 | 0.99 | 1.00 |
MAfft+ClustalW | 0.99 | 0.98 | 1.00 |
Как можно заметить алгоритмы практически идентично справились с данным выравниванием за исключением отдельных столбцов.
Для данного задания я решил повторно рассмотреть белки домена Цитохром С (PF00034). Были выбраны 3 структуры из трех разных организмов:
1. PDB ID: 1A8C из бактерии Nitrosomonas europaea
2. PDB ID: 1AKK из лошади Equus caballus
3. PDB ID: 1CCH из бактерии Stutzerimonas stutzeri
Далее я использовал Pairwise Structure Alignment на сайте PDB, в качестве референса я взял 1A8C. Результаты можно видеть ниже.
Entry | Chain | RMSD | TM-score | Identity | Aligned Residues | Sequence Length | Modeled Residues |
---|---|---|---|---|---|---|---|
1A8C | А | - | - | - | - | 81 | 81 |
1AKK | А | 3.1 | 0.57 | 16% | 64 | 104 | 104 |
1CCH | А | 2.14 | 0.75 | 57% | 76 | 82 | 82 |
Как можно заметить выравнивание Бактериального Цитохрома С у 1A8C и 1CCH имеет гораздо большее количество идентичных аминокислот. Так же и гораздо большим сходство обладает 3ех мерная структура что отчетливо видно на рисунке ниже. У Цитохрома С полученного из лошади можно заметить дополнительную альфа-спираль которая отсутсвуют у бактериальных.
Результат выравнивания я скачал в формате fasta и дополнинл последнюю последовательность гэпами таким образом чтобы общее выравнивание 3ех последовательностей имело смысл.
Ссылка: проект JalView
Затем было сделано выравнивание данных последовательностейц с помощью Mafft.
Ссылка: проект JalView
Как можно заметить в выравнивании этих последовательностей алгоритмом MSA полностью согласуется с тем что мы видим на пространственной структуре, у 1AKK с 39-53 позицию можно увидеть невыравненный участок который судя по аминокислотному составу и является альфа спиралью что видна в пространственном выравнивании. Далее я сравнил выравнивания из PDB и полученное с помощью работы mafft. Длина первого выравнивания - 116, второго - 117, Выравнивания достаточно сильно различаются. Имеется 4 совпадающих блока.
Muscle - это алгоритм множетсвенного выравнивания разработанный в 2004 году компанией drive5, оригинальный алгоритм придуман Робертом Эдгаром. Исходный код программы доступен на гитхаб однако программа проприетарная.
Данный алгоритм относится к прогрессивным алгоритмам множественного выравнивания и выполняется в 3 этапа.
1 этап "Набросок прогрессивного выравнивания". На данном этапе множетсвенного выравнивания алгоритм сравнивает все k-меры(слова) каждой входящей последовательности чтобы создать матрицу расстояний для последовательностей. Затем он начинает строить бинарное дерево с помощью алгоритма UPGMA. Он попарно располагает в листьях выравнивания с наибольшим весом, два выравнивания образуют узел, затем узлы выравниваются уже относительно друг друга и после выравнивания они образуют новые узлы до тех пор пока алгоритм не дойдет до корня дерева. Данный этап нацелен на быстроту исполнения.
2 этап "Улучшенное прогрессивное выравнивание". На данном этапе алгоритм стремится к более оптимальному дереву с учетом эволюционной дистанции для каждого узла предыдущего выравнивания. Процесс практически идентичен первому этапу однако если какой-то участок второго дерева отличается от первого то они попарно перевыравниваются.
3 этап "Финальная обработка". На этом этапе последовательно от листьев к корню удаляются ребра дерева, далее дерево разделяется на два поддерева. Затем для каждого поддерева вычисляется множественное выравнивание. Если SP score улучшается, новое выравнивание сохраняется, в противном случае оно отбрасывается. Процесс удаления ребер и выравнивания повторяется до тех пор, пока результаты не сойдуться или не будет достигнут определенный пользователем предел.
Сложность вычисления и выводы. Данный алгоритм имеет сложность О-большое от (N^2L + NL^2) где N - колво последовательностей а L - длина выравнивания. С стадией Финальной обработки сложность алгоритма увеличивается на O-большое от (N^3L). MUSCLE часто используется как замена для Clustal так как как правило дает более правильные выраавнивания а так же значительно быстрее второго.