Программы множественного выравнивания
Сравнение выравниваний одних и тех же последовательностей тремя разными программами
Проект с тремя выравниваниямиВыравнивания в формате FASTA:
1) T-COFFEE
2) MAFFT
3) MUSCLE
Сравнение выравниваний было выполнено визуально в программе Jalview
Ниже приведены сравнительные таблицы
Таблица 1. T-COFFEE и MUSCLE
| T-COFFEE | MUSCLE | |
|---|---|---|
| Совпадающие участки | (1,15) | (1,15) |
| (21,32) | (21,32) | |
| (51,61) | (50,60) | |
| Несовпадающие участки | (33,49) | (33,50) |
| (62,63) | (61,62) | |
| (71,77) | (70,76) |
Сравнивания данные алгоритмы можно заметить главное отличие - это различные длины выравниваний. В левой половине выравнивания позиции колонок перестали совпадать. Также есть довольно протяженный несовпадающий участок ((33,49) (33,50) позиции в T-COFFEE и MUSCLE соответственно). Все это может говорить о том, что данные алгоритмы сильно различаются.
Таблица 2. T-COFFEE и MAFFT
| T-COFFEE | MUSCLE | |
|---|---|---|
| Совпадающие участки | (1,13) | (1,13) |
| (20,30) | (20,30) | |
| (83,86) | (83,86) | |
| Несовпадающие участки | (14,15) | (14,15) |
| (18,19) | (18,19) | |
| (30,48) | (30,47) |
При сравнении алгоритмов T-COFFEE и MAFFT было обнаружено немало совпадающих участков, однако также был найден довольно протяженный несовпадающий участок выравнивания. Количество колонок в выравнивании одинаковое. Можно сделать вывод, что алгоритмы немного отличаются.
Несмотря на то, что и первая и вторая пара алгоритмов отличаются, нетрудно заметить, что алгоритмы T-COFFEE и MAFFT более схожи друг с другом, чем T-COFFEE и MUSCLE и, возможно, взаимозаменяемые.
Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA
В программе Pymol было выполнено выравнивание 3 структур с помощью команды super
Зеленый - 1BHT
Фиолетовый - 1I71
Серый - 2HPP
Проект JalviewВыравнивания в формате FASTA:
1) PDBefold
1) MUSCLE
Таблица 3. PDBeFold и MUSCLE
| PDBeFold | MUSCLE | |
|---|---|---|
| Совпадающие участки | (1,126) | (1,126) |
| (136,150) | (132,146) | |
| (157,180) | (152,175) | |
| Несовпадающие участки | (127,135) | (127,131) |
| (151,156) | (147,151) |
По результатам из таблицы видно, что выравнивания имеют высокую степень сходства. Есть два протяженных совпадающих участка. Можно сделать вывод, что алгоритм MUSCLE выполнил выравнивание близко к истинному структурному. Консервативные участки в последовательности соотвутствуют консервативным в структуре
Описание программы MSA - MAFFT
MAFFT (multiple alignment using fast Fourier transform) - это программа выравнивания, используемая для создания множественного выравнивания последовательностей аминокислот или нуклеотидов. Разработана японским исследователем Кадзутака Като в 2002 году. Принцип работы основывается на быстром преобразовании Фурье. [1]
У MAFFT есть три режима: FFT-NS-1, FFT-NS-2 FFT-NS-i. Они отличаются друг от друга скоростью и точностью выполнения.
FFT-NS-1 наименее точный,но самый быстрый. Может использоваться в случае, если очень много последовательностей, которые нужно быстро выровнять
FFT-NS-2 немного медленнее чем первый режим, но работает точнее
FFT-NS-i самый точный из всех режимов, был сопоставим на момент запуска с T-COFFEE.
Преимущества:
1. Работает и с аминокислотными, и с нуклеотидными последовательностями
2. FFT снижает сложность для консервативных последовательностей с O(N²) до O(N), за счет чего увеличивается скорость
3. Точность сопоставима с T-COFFEE (самый точный алгоритм на момент запуска MUSCLE)
4. Чем длиннее последовательность, тем сильнее выигрыш в скорости по сравнению с другими алгоритмами
5. Есть возможность выбирать режимы в зависимости от задачи
Литература
[1] Katoh K., Misawa K., Kuma K., Miyata T. MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform // Nucleic Acids Research. — 2002. — Vol. 30, № 14. — P. 3059–3066.