Практикум 12

Сравните выравнивания одних и тех же последовательностей разными программами

Для выравниваний рассматривались трансмембранные белки индуцирующие интерферон у человека и мышей(Interferon-induced transmembrane protein PF04505). Выравнивая указаны в порядке: MUSCLE; MAFFT; CLUSTAL. Для выполнения работы использовалась программа Bullanator.py, которую написал Быков Егор

Рис.1. Выравнивание с помощью программы MUSCLE.
Рис.2. Выравнивание с помощью программы MAFFT.
Рис.3. Выравнивание с помощью программы CLUSTAL.
Ссылка на Jalview проект

Таким образом, совпадающие колонки относительно выравниваниq по MUSCLE и MAFFT:

Таблица 1. Координаты совпадающих блоков в множественном выравнивнивании с помощью программ MAFFT и Muscle
Блок MAFFT Muscle
1 5-6 5-6
2 25-28 24-27
3 12-12 36-36
4 112-113 143-144
5 91-97 159-165
6 142-143 256-257
7 160-162 273-275
8 239-239 342-342
9 397-425 559-587
Таблица 2. Координаты совпадающих блоков в множественном выравнивнивании с помощью программ Muscle и ClustalW
Блок Muscle ClustalW
1 81-82 30-31
2 535-541 332-338
3 544-556 341-353
4 559-587 356-384

Сравнив результаты трех разных программ, я заметил, что MAFFT и Muscle выдают очень похожие выравнивания. Это логично, так как в их основе лежит итеративное рафинирование. ClustalW в этом плане ожидаемо отстает, так как использует более простой прогрессивный алгоритм. Сходство первых двух программ подтверждается и цифрами: у них самый высокий процент идентичных колонок и наибольшее количество общих блоков выравнивания (Таблицы 1, 2).

Построение выравнивания по совмещению структур и его сравнение с выравниванием MSA

С помощью инструмента выравнивания структур PDB были совмещены структуры трёх белков семейства MutS (PDB ID: 1E3M (белок E. coli), 1EWQ (белок T. aquaticus), 5X9W (белок N. gonorrhoeae)). Выдача скрипта Bullanator.py для двух данных выравниваний показало, что общая протяженность идентичных блоков - 629 столбцов (77,65% от длины выравнивания по совмещению структур и 78,43% от длины выравнивания программой Muscle), ссылка на проект Jalview с двумя выравниваниями (пространственное и с помощью программы MSA).

Таким образом, высокая степень пространственного сходства исследуемых белков при низкой гомологии их последовательностей подтверждает консервативность третичной структуры в процессе эволюции, несмотря на их происхождение из разных организмов

Рис.4. Наложение пространственных структур трёх белков.

Описание программы множественного выравнивания MAFFT

MAFFT (Multiple Alignment using Fast Fourier Transform) — программа для множественного выравнивания нуклеотидных и аминокислотных последовательностей. Широко используется в биоинформатике для сравнительного геномного анализа, построения филогенетических деревьев и выявления консервативных функциональных сайтов белков.

Программа опубликована в 2002 году Кадзутакой Като и коллегами с кафедры биофизики Университета Киото. Она создавалась как решение проблемы скорости и масштабируемости множественного выравнивания. Ключевой идеей стало применение быстрого преобразования Фурье (FFT) — нестандартный подход для биоинформатики того времени. Версия 7, вышедшая в 2013 году совместно с Дароном Стэндли, стала крупным обновлением и закрепила MAFFT как один из стандартных инструментов области.

1. Парное выравнивание. На данном шаге производится попарное выравнивание всех заданных последовательностей. Этот шаг нужен для того, чтобы определить, какие участки последовательностей имеют наибольшее сходство.

2. Расчёт матрицы расстояний последовательностей. На этом этапе производится построение матрицы расстояний, отражающей степень сходства между разными парами заданных последовательностей.

3. Построение направляющего дерева. Направляющее дерево строится на основе матрицы расстояний, посчитанной на предыдущем шаге. В листьях такого дерева оказываются пары последовательностей, наиболее схожих между собой.

4. Прогрессивное выравнивание. На этом шаге производится собственно множественное выравнивание последовательностей от "листьев" направляющего дерева к "корню" — то есть от наиболее схожих (родственных) между собой последовательностей к наименее схожим.

5. Итеративное рафинирование. На конечном этапе происходит итеративное разделение и перевыравнивание каждой из двух подгрупп исходной группы последовательностей для "очищения" (рафинирования) результата прогрессивного выравнивания.

Литература

Оригинальная статья 2002 года (NAR): Cсылка

Статья о версии 7 (MBE, 2013): Ссылка

Katoh, Kazutaka; Toh, Hiroyuki (2008). "Improved accuracy of multiple ncRNA alignment by incorporating structural information into a MAFFT-based framework". BMC Bioinformatics. 9: 212. doi:10.1186/1471-2105-9-212. PMC 2387179. PMID 18439255

https://en.wikipedia.org/wiki/MAFFT?ysclid=max2ptu562799609601

The base MAFFT software is released under one of the BSD licenses, while versions for Microsoft Windows are released under a GNU General Public License. Some distributions of MAFFT contain software licensed under other licenses https://mafft.cbrc.jp/alignment/software/