Программы множественного выравнивания

Сравнение выравниваний одних и тех же последовательностей тремя разными программами

Проект с тремя выравниваниями

Выравнивания в формате FASTA:

1) T-COFFEE

2) MAFFT

3) MUSCLE

Сравнение выравниваний было выполнено визуально в программе Jalview

Ниже приведены сравнительные таблицы

Таблица 1. T-COFFEE и MUSCLE

T-COFFEE MUSCLE
Совпадающие участки (1,15) (1,15)
(21,32) (21,32)
(51,61) (50,60)
Несовпадающие участки (33,49) (33,50)
(62,63) (61,62)
(71,77) (70,76)

Сравнивания данные алгоритмы можно заметить главное отличие - это различные длины выравниваний. В левой половине выравнивания позиции колонок перестали совпадать. Также есть довольно протяженный несовпадающий участок ((33,49) (33,50) позиции в T-COFFEE и MUSCLE соответственно). Все это может говорить о том, что данные алгоритмы сильно различаются.

Таблица 2. T-COFFEE и MAFFT

T-COFFEE MUSCLE
Совпадающие участки (1,13) (1,13)
(20,30) (20,30)
(83,86) (83,86)
Несовпадающие участки (14,15) (14,15)
(18,19) (18,19)
(30,48) (30,47)

При сравнении алгоритмов T-COFFEE и MAFFT было обнаружено немало совпадающих участков, однако также был найден довольно протяженный несовпадающий участок выравнивания. Количество колонок в выравнивании одинаковое. Можно сделать вывод, что алгоритмы немного отличаются.

Несмотря на то, что и первая и вторая пара алгоритмов отличаются, нетрудно заметить, что алгоритмы T-COFFEE и MAFFT более схожи друг с другом, чем T-COFFEE и MUSCLE и, возможно, взаимозаменяемые.

Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA

В программе Pymol было выполнено выравнивание 3 структур с помощью команды super

аэаэ

Зеленый - 1BHT

Фиолетовый - 1I71

Серый - 2HPP

Проект Jalview

Выравнивания в формате FASTA:

1) PDBefold

1) MUSCLE

Таблица 3. PDBeFold и MUSCLE

PDBeFold MUSCLE
Совпадающие участки (1,126) (1,126)
(136,150) (132,146)
(157,180) (152,175)
Несовпадающие участки (127,135) (127,131)
(151,156) (147,151)

По результатам из таблицы видно, что выравнивания имеют высокую степень сходства. Есть два протяженных совпадающих участка. Можно сделать вывод, что алгоритм MUSCLE выполнил выравнивание близко к истинному структурному. Консервативные участки в последовательности соотвутствуют консервативным в структуре

Описание программы MSA - MAFFT

MAFFT (multiple alignment using fast Fourier transform) - это программа выравнивания, используемая для создания множественного выравнивания последовательностей аминокислот или нуклеотидов. Разработана японским исследователем Кадзутака Като в 2002 году. Принцип работы основывается на быстром преобразовании Фурье. [1]

У MAFFT есть три режима: FFT-NS-1, FFT-NS-2 FFT-NS-i. Они отличаются друг от друга скоростью и точностью выполнения.

FFT-NS-1 наименее точный,но самый быстрый. Может использоваться в случае, если очень много последовательностей, которые нужно быстро выровнять

FFT-NS-2 немного медленнее чем первый режим, но работает точнее

FFT-NS-i самый точный из всех режимов, был сопоставим на момент запуска с T-COFFEE.

Преимущества:

1. Работает и с аминокислотными, и с нуклеотидными последовательностями

2. FFT снижает сложность для консервативных последовательностей с O(N²) до O(N), за счет чего увеличивается скорость

3. Точность сопоставима с T-COFFEE (самый точный алгоритм на момент запуска MUSCLE)

4. Чем длиннее последовательность, тем сильнее выигрыш в скорости по сравнению с другими алгоритмами

5. Есть возможность выбирать режимы в зависимости от задачи

Литература

[1] Katoh K., Misawa K., Kuma K., Miyata T. MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform // Nucleic Acids Research. — 2002. — Vol. 30, № 14. — P. 3059–3066.