Мы нашли по несколько белков с одинаковой мнемоникой в Swiss-Prot и выровняли каждую группу с помощью программ mafft и muscle.
Рассматривались белки (UniProtID):
Выравнивания сравнили с помощью программы Jalview визуально и с помощью программы VerAlign.
Выравнивания совпадают на участках 1-15, 109-170 (muscle) с 121-182 (mafft). Участки 16-50 и 282-296 (muscle) 293-307 (mafft) не совпадают. Выравнивания в общем близки.
Рассматривались белки (UniProtID):
Выравнивания сравнили с помощью программы Jalview визуально и с помощью программы Лизы Плешко.
Выравнивания совпадают на участках 1 - 94, 131-186. На участках 95-130 и 188-205 выравнивания не совпадают. Визуально выравнивания очень похожи.
Вывод программы сравнения выравниваний - доля одинаково выровненных позиций:
В первом выравнивании 0.44%, во втором выравнивании 0.46%.
С помощью выравнивания PDB по смещению структур мы выровняли белки с pdb_id: 3CZH, 2FDV, 3K9V (цепь А от каждого белка).
Те же белки были выровнены в программе множественного выравнивания muscle. Сравнивая эти выравнивания по паре белков визуально в программе Jalview можно увидеть, что выравнивания пересекаются в некоторых местах, но совпадают меньше чем в половине позиций.
MAFFT - программа множественного выравнивания. Как и все современные программы множественного выравнивания. У нее есть разные режимы работы. В частности, она предлагает точный алгоритм для запросов с менее чем 200 последовательностями. Для больших запросов (до 30000 последовательностей) используется эвристический алгоритм.
На вход принимает fasta файл с последовательностями, которые нужно выровнять.
Основных алгоритмов три.
Сначала, с помощью подсчета соответствующих слов длины 6 определяется попарное расстояние меду последовательностями. На базе матрицы расстояний строится дерево с листьями-последовательностями. Затем проводится прогрессивное выравнивание (на базе выравнивания самых похожих последовательностей подстраивают остальные последовательности). С помощью первого прогрессивного выравнивания строится уточненное дерево, на базе которого потом проводится второе и последнее более детальное прогрессивное выравнивание.
Отличается от предыдущего тем, что используется только один алгоритм прогрессивного выравнивания (но используется по той же схеме дважды), а итоговое выравнивание дополнительно обрабатывается уточняющим алгоритмом.
Строятся попарные выравнивания, на их основе рассчитываются расстояние между последовательностями и строится дерево. Последовательности на базе этого дерева выравниваются один раз прогрессивным методом и потом уточняются итеративным.
Подробнее почитать про алгоритмы в терминах, посмотреть формулы и коэффициенты можно на сайте
.