Практикум 12

Сравнение выравнивания одних и тех же последовательностей тремя разными программами: MUSCLE, MAFFT, T-COFFEE

Для выполнения задания использовался код, написанный моей однокурсницей, Еленой Гончаровой.

Выравнивания, полученные разными программами: MUSCLE, MAFFT, T-COFFEE.

Ссылка на проект JalView

Сравнение выравниваний

Были получены следующие результаты:

Таблица 1. Сравнение MUSCLE и MAFFT. Совпадающие участки
MUSCLE MAFFT Длина
1 (17,39) (17,39) 23
2 (95,98) (95,98) 4
3 (63,65) (64,66) 3
4 (59,60) (60,61) 2
Таблица 2. Сравнение MUSCLE и MAFFT. Несовпадающие участки
MUSCLE MAFFT Длина
1 (40,58) (40,58) 19
2 (1,16) (1,16) 16
3 (61,62) (62,63) 3

Одинаково выровненные колонки, не входящие в блоки: (41,41)

Процент совпадающих колонок в MUSCLE: 33,7%

Таблица 3. Сравнение MUSCLE и T-COFFEE. Совпадающие участки
MUSCLE T-COFFEE Длина
1 (15,39) (19,43) 25
2 (62,65) (73,76) 4
3 (57,58) (68,69) 2
Таблица 4. Сравнение MUSCLE и T-COFFEE. Несовпадающие участки
MUSCLE T-COFFEE Длина
1 (40,60) (40,60) 21
2 (1,14) (1,14) 14

Одинаково выровненные колонки, не входящие в блоки: (41,45), (60,71), (94,108), (97,112).

Процент совпадающих колонок в MUSCLE: 35,7%

Количество совпадающих колонок при выравнивании с помощью программ MUSCLE и T-COFFEE незначительно больше, чем с помощью MUSCLE и MAFFT. Однако при выравнивании с помощью MUSCLE и MAFFT совпадающие колонки имеют примерно одинаковые координаты, что говорит о большей схожести этих алгоритмов.

Выравнивание по совмещению структур

Были выбраны 3 белка: 1DWM, 1EGL, 1MIT. С помощью PDBeFold были получены структурные выравнивания. Также последовательности были выровнены с помощью MUSCLE. Полученные выравнивания были проанализированы скриптом из задания 2.

Были получены следующие результаты:

Таблица 5. Сравнение PDBeFold и MUSCLE. Совпадающие участки
MUSCLE PDBeFold Длина
1 (1,41) (1,41) 41
2 (46,58) (47,59) 13
3 (68,70) (71,73) 3

Одиночных совпадений вне блоков: 0.
Несовпадающие участки в 12.3_pdb.fa:
42-45 (длина 4)
59-67 (длина 9).

Процент совпадения: 81,4%.

Структуры
Рис.1. Визуализация структурного выравнивания

Из полученных результатов можно сделать вывод, что последовательности обладают высоким сходством, оба алгоритма выравнивания справляются со своей задачей, выравнивание, полученное из структурного, является правдивым и точным.

Краткое описание программы MAFFT

MAFFT (Multiple Alignment using Fast Fourier Transform) — это высокопроизводительная программа для множественного выравнивания биологических последовательностей (белков, ДНК, РНК), разработанная группой Кадзутаки Като [1]. Впервые программа была выпущена в 2002 году [1] и с тех пор активно развивается (текущая стабильная версия — 7) [3,4].

Ключевые особенности
  1. Использование быстрого преобразования Фурье (БПФ). Основное новшество MAFFT — применение БПФ для быстрого поиска гомологичных участков. Метод преобразует аминокислотные последовательности в последовательности, отражающие физико-химические свойства (объём и полярность) каждого остатка, и с помощью анализа периодичности сигнала ускоряет поиск гомологии [1].
  2. Стратегии выравнивания. MAFFT реализует несколько эвристик:
  3. Высокая скорость и производительность. MAFFT значительно быстрее таких программ, как CLUSTALW (сопоставимая точность) [1] и T-Coffee (более чем в 100 раз быстрее при количестве последовательностей >60) [1]. Параллельная версия MAFFT эффективно обрабатывает до десятков тысяч последовательностей [6].
  4. Улучшения версии 7 (2013 г.): добавлена возможность вставки невыровненных последовательностей в существующее выравнивание, корректировка направления нуклеотидных последовательностей, выравнивание с ограничениями (constrained alignment) и поддержка параллельных вычислений [3].
  5. Веб-сервис. MAFFT доступен онлайн, предоставляя возможность не только выравнивания, но и интерактивного выбора последовательностей и визуализации результатов (например, филогенетических деревьев) [4].
  6. Оптимизация параметров. Исследования показывают, что для эталонной базы BAliBASE 3.0 можно подобрать оптимальные параметры MAFFT для достижения наилучшего компромисса между скоростью и точностью [5].
  7. Адаптация под большие данные. Современные модификации MAFFT, включая эффективную параллелизацию, позволяют обрабатывать очень большие наборы данных (метагеномные проекты) [6,7].

Применение

MAFFT широко используется в биоинформатике для:

Ограничения

Как и любые автоматические методы, MAFFT может ошибаться при выравнивании сильно дивергировавших последовательностей с большим количеством вставок/делеций [3]. Разработчики рекомендуют визуально проверять и при необходимости корректировать результаты.


Список литературы

[1] Katoh K. MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform // Nucleic Acids Research. 2002. T. 30. № 14. С. 3059–3066
DOI: 10.1093/nar/gkf436

[2] Katoh K. MAFFT version 5: improvement in accuracy of multiple sequence alignment // Nucleic Acids Research. 2005. T. 33. № 2. С. 511–518
DOI: 10.1093/nar/gki198

[3] Katoh K., Standley D. M. MAFFT Multiple Sequence Alignment Software Version 7: Improvements in Performance and Usability // Molecular Biology and Evolution. 2013. T. 30. № 4. С. 772–780
DOI: 10.1093/molbev/mst010

[4] Katoh K., Rozewicki J., Yamada K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization // Briefings in Bioinformatics. 2017. T. 20. № 4. С. 1160–1166
DOI: 10.1093/bib/bbx108

[5] Long H., Li M., Fu H. Determination of optimal parameters of MAFFT program based on BAliBASE3.0 database // SpringerPlus. 2016. T. 5. № 1
DOI: 10.1186/s40064-016-2526-5

[6] Nakamura T. и др. Parallelization of MAFFT for large-scale multiple sequence alignments // Bioinformatics. 2018. T. 34. № 14. С. 2490–2492
DOI: 10.1093/bioinformatics/bty121

[7] Zheng W. и др. A Modified Multiple Alignment Fast Fourier Transform with Higher Efficiency // IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2017. T. 14. № 3. С. 634–645
DOI: 10.1109/tcbb.2016.2530064