Практикум 12

Сравнение выравниваний

Мы нашли по несколько белков с одинаковой мнемоникой в Swiss-Prot и выровняли каждую группу с помощью программ mafft и muscle.

1 группа:

Рассматривались белки (UniProtID):

Выравнивания сравнили с помощью программы Jalview визуально и с помощью программы VerAlign.

Все радужно и очень похоже
Большой сходный участок, выравнивание VerAlign

Выравнивания совпадают на участках 1-15, 109-170 (muscle) с 121-182 (mafft). Участки 16-50 и 282-296 (muscle) 293-307 (mafft) не совпадают. Выравнивания в общем близки.

2 группа:

Рассматривались белки (UniProtID):

Выравнивания сравнили с помощью программы Jalview визуально и с помощью программы Лизы Плешко.

Выравнивания совпадают на участках 1 - 94, 131-186. На участках 95-130 и 188-205 выравнивания не совпадают. Визуально выравнивания очень похожи.

Вывод программы сравнения выравниваний - доля одинаково выровненных позиций:

В первом выравнивании 0.44%, во втором выравнивании 0.46%.

Выравнивание по совмещению структур

С помощью выравнивания PDB по смещению структур мы выровняли белки с pdb_id: 3CZH, 2FDV, 3K9V (цепь А от каждого белка).

Все три белка 3CZH и 2FDV 3CZH и 3K9V
Пространственное выравнивание белков в PDB, все три и попарно

Те же белки были выровнены в программе множественного выравнивания muscle. Сравнивая эти выравнивания по паре белков визуально в программе Jalview можно увидеть, что выравнивания пересекаются в некоторых местах, но совпадают меньше чем в половине позиций.

MAFFT

MAFFT - программа множественного выравнивания. Как и все современные программы множественного выравнивания. У нее есть разные режимы работы. В частности, она предлагает точный алгоритм для запросов с менее чем 200 последовательностями. Для больших запросов (до 30000 последовательностей) используется эвристический алгоритм.

На вход принимает fasta файл с последовательностями, которые нужно выровнять.

Основных алгоритмов три.

Прогрессивные методы FFT-NS-1 и FFT-NS-2

Сначала, с помощью подсчета соответствующих слов длины 6 определяется попарное расстояние меду последовательностями. На базе матрицы расстояний строится дерево с листьями-последовательностями. Затем проводится прогрессивное выравнивание (на базе выравнивания самых похожих последовательностей подстраивают остальные последовательности). С помощью первого прогрессивного выравнивания строится уточненное дерево, на базе которого потом проводится второе и последнее более детальное прогрессивное выравнивание.

Итеративные методы FFT-NS-i и NW-NS-i

Отличается от предыдущего тем, что используется только один алгоритм прогрессивного выравнивания (но используется по той же схеме дважды), а итоговое выравнивание дополнительно обрабатывается уточняющим алгоритмом.

Итеративные методы L-INS-i, E-INS-i и G-INS-i

Строятся попарные выравнивания, на их основе рассчитываются расстояние между последовательностями и строится дерево. Последовательности на базе этого дерева выравниваются один раз прогрессивным методом и потом уточняются итеративным.

Подробнее почитать про алгоритмы в терминах, посмотреть формулы и коэффициенты можно на сайте

.