Практикум 12

Сравнение выравнивания одних и тех же последовательностей тремя разными программами: MUSCLE, MAFFT, T-COFFEE

Для выполнения задания использовался код, написанный моей однокурсницей, Еленой Гончаровой.

Выравнивания, полученные разными программами: MUSCLE, MAFFT, T-COFFEE.

Ссылка на проект JalView

Сравнение выравниваний

Были получены следующие результаты:

**Таблица 1.** Сравнение MUSCLE и MAFFT. Совпадающие участки
№	MUSCLE	MAFFT	Длина
1	(17,39)	(17,39)	23
2	(95,98)	(95,98)	4
3	(63,65)	(64,66)	3
4	(59,60)	(60,61)	2

**Таблица 2.** Сравнение MUSCLE и MAFFT. Несовпадающие участки
№	MUSCLE	MAFFT	Длина
1	(40,58)	(40,58)	19
2	(1,16)	(1,16)	16
3	(61,62)	(62,63)	3

Одинаково выровненные колонки, не входящие в блоки: (41,41)

Процент совпадающих колонок в MUSCLE: 33,7%

**Таблица 3.** Сравнение MUSCLE и T-COFFEE. Совпадающие участки
№	MUSCLE	T-COFFEE	Длина
1	(15,39)	(19,43)	25
2	(62,65)	(73,76)	4
3	(57,58)	(68,69)	2

**Таблица 4.** Сравнение MUSCLE и T-COFFEE. Несовпадающие участки
№	MUSCLE	T-COFFEE	Длина
1	(40,60)	(40,60)	21
2	(1,14)	(1,14)	14

Одинаково выровненные колонки, не входящие в блоки: (41,45), (60,71), (94,108), (97,112).

Процент совпадающих колонок в MUSCLE: 35,7%

Количество совпадающих колонок при выравнивании с помощью программ MUSCLE и T-COFFEE незначительно больше, чем с помощью MUSCLE и MAFFT. Однако при выравнивании с помощью MUSCLE и MAFFT совпадающие колонки имеют примерно одинаковые координаты, что говорит о большей схожести этих алгоритмов.

Выравнивание по совмещению структур

Были выбраны 3 белка: 1DWM, 1EGL, 1MIT. С помощью PDBeFold были получены структурные выравнивания. Также последовательности были выровнены с помощью MUSCLE. Полученные выравнивания были проанализированы скриптом из задания 2.

Были получены следующие результаты:

**Таблица 5.** Сравнение PDBeFold и MUSCLE. Совпадающие участки
№	MUSCLE	PDBeFold	Длина
1	(1,41)	(1,41)	41
2	(46,58)	(47,59)	13
3	(68,70)	(71,73)	3

Одиночных совпадений вне блоков: 0.
Несовпадающие участки в 12.3_pdb.fa:
42-45 (длина 4)
59-67 (длина 9).

Процент совпадения: 81,4%.

Структуры — Рис.1. Визуализация структурного выравнивания

Из полученных результатов можно сделать вывод, что последовательности обладают высоким сходством, оба алгоритма выравнивания справляются со своей задачей, выравнивание, полученное из структурного, является правдивым и точным.

Краткое описание программы MAFFT

MAFFT (Multiple Alignment using Fast Fourier Transform) — это высокопроизводительная программа для множественного выравнивания биологических последовательностей (белков, ДНК, РНК), разработанная группой Кадзутаки Като [1]. Впервые программа была выпущена в 2002 году [1] и с тех пор активно развивается (текущая стабильная версия — 7) [3,4].

Ключевые особенности

Использование быстрого преобразования Фурье (БПФ). Основное новшество MAFFT — применение БПФ для быстрого поиска гомологичных участков. Метод преобразует аминокислотные последовательности в последовательности, отражающие физико-химические свойства (объём и полярность) каждого остатка, и с помощью анализа периодичности сигнала ускоряет поиск гомологии [1].
Стратегии выравнивания. MAFFT реализует несколько эвристик:
- Прогрессивный метод (FFT-NS-2) — быстрый, приблизительный, но подходящий для больших наборов данных [1].
- Итеративное уточнение (FFT-NS-i) — более точный метод, выполняющий итеративное исправление выравнивания [1].
- Стратегии с учётом парных выравниваний (G-INS-i, L-INS-i, E-INS-i, H-INS-i, F-INS-i), появившиеся в версии 5 (2005 г.), где информация о парных выравниваниях интегрируется в целевую функцию, что значительно повышает точность [2].
Высокая скорость и производительность. MAFFT значительно быстрее таких программ, как CLUSTALW (сопоставимая точность) [1] и T-Coffee (более чем в 100 раз быстрее при количестве последовательностей >60) [1]. Параллельная версия MAFFT эффективно обрабатывает до десятков тысяч последовательностей [6].
Улучшения версии 7 (2013 г.): добавлена возможность вставки невыровненных последовательностей в существующее выравнивание, корректировка направления нуклеотидных последовательностей, выравнивание с ограничениями (constrained alignment) и поддержка параллельных вычислений [3].
Веб-сервис. MAFFT доступен онлайн, предоставляя возможность не только выравнивания, но и интерактивного выбора последовательностей и визуализации результатов (например, филогенетических деревьев) [4].
Оптимизация параметров. Исследования показывают, что для эталонной базы BAliBASE 3.0 можно подобрать оптимальные параметры MAFFT для достижения наилучшего компромисса между скоростью и точностью [5].
Адаптация под большие данные. Современные модификации MAFFT, включая эффективную параллелизацию, позволяют обрабатывать очень большие наборы данных (метагеномные проекты) [6,7].

Применение

MAFFT широко используется в биоинформатике для:

филогенетического анализа;
поиска консервативных мотивов и доменов;
структурного моделирования белков;
анализа метагеномных данных;
аннотации геномов.

Ограничения

Как и любые автоматические методы, MAFFT может ошибаться при выравнивании сильно дивергировавших последовательностей с большим количеством вставок/делеций [3]. Разработчики рекомендуют визуально проверять и при необходимости корректировать результаты.

Список литературы

[1] Katoh K. MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform // Nucleic Acids Research. 2002. T. 30. № 14. С. 3059–3066
DOI: 10.1093/nar/gkf436

[2] Katoh K. MAFFT version 5: improvement in accuracy of multiple sequence alignment // Nucleic Acids Research. 2005. T. 33. № 2. С. 511–518
DOI: 10.1093/nar/gki198

[3] Katoh K., Standley D. M. MAFFT Multiple Sequence Alignment Software Version 7: Improvements in Performance and Usability // Molecular Biology and Evolution. 2013. T. 30. № 4. С. 772–780
DOI: 10.1093/molbev/mst010

[4] Katoh K., Rozewicki J., Yamada K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization // Briefings in Bioinformatics. 2017. T. 20. № 4. С. 1160–1166
DOI: 10.1093/bib/bbx108

[5] Long H., Li M., Fu H. Determination of optimal parameters of MAFFT program based on BAliBASE3.0 database // SpringerPlus. 2016. T. 5. № 1
DOI: 10.1186/s40064-016-2526-5

[6] Nakamura T. и др. Parallelization of MAFFT for large-scale multiple sequence alignments // Bioinformatics. 2018. T. 34. № 14. С. 2490–2492
DOI: 10.1093/bioinformatics/bty121

[7] Zheng W. и др. A Modified Multiple Alignment Fast Fourier Transform with Higher Efficiency // IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2017. T. 14. № 3. С. 634–645
DOI: 10.1109/tcbb.2016.2530064