Алгоритмы и программы множественного выравнивания

2. Сравнение выравниваний, полученных с помощью разных программ

Для сравнительного анализа были выбраны следующие программы множественного выравнивания (multiple sequence alignment algorithm, MSA): MSAProbs, MAFFT, ClustalW. Выбор программ основывался на времени работы, году публикации и значении среднего веса выравниваний, проводимых для оценки точности алгоритма относительно "идеальных" выравниваний из базы данных BaliBase [1], характеристики приведены в табл. 1.

**табл. 1**. Характеристики программ.
Program	Average score	Totale time, s	year
MSAProbs	0.607	12382	2010
MAFFT	0.588	1475	2002
ClustalW	0.374	766	1994

Из таблицы видно, что MSAProbs является наиболее точной, но также времязатратной программой. Также, как указано на официальном сайте, MSAProbs обеспечивает статистически значимое повышение точности по сравнению с другими программами. Использование алгоритма MAFFT кажется оптимальным вариантом, не сильно проигрывающем в показателе веса. ClustalW выделяется меньшим временем работы.

Для выполнения задания были взяты белки из практикума 9, пункта 5.

Проект Jalview, все программы были запущены с базовыми параметрами. Сравнение выравниваний проводилось с помощью сервиса VerAlign.

**табл. 2**. Сравнение программ.
Program	SP score	CS score	avg_SPdist score
MSAProbs + MAFFT	0.96	0.94	0.99
MSAProbs + ClustalW	0.95	0.92	0.98

SP: Sum-of-Pairs Score, доля одинаково выровненных пар в тестовом выравнивании относительно референса, по месту положения в цепи;
CP: Column Score, доля одинаково выровненных позиций, то есть по колонкам;
avg_SPdist: включает информацию о расстоянии между парами невыровненных остатков.

По заданию необходимо сравнить программы A с B и A с C. Алгоритм MSAProbs выбран в качестве программы А, поскольку обладает лучшими характеристиками.

MSAProbs + MAFFT Сравнение выравниваний показало, что они имеют длинные совпадающие блоки*: (1,146) (совпадает для обоих выравниваний), (200,317)=(199,316), (363,377)=(362,376), (384,409)=(382,407) и несколько коротких. Примеры несовпадения позиций в выравниваниях (между совпадающими блоками): (147,199)!=(146,198), (378,383)!=(377,381).
*Первые два блока имеют в своем составе совпадающие для выравниваний гэпы.

MSAProbs + ClustalW Данные выравнивания имеют не такие протяженные совпадающие блоки за счет перераспределения гэпов. Примеры совпадающих блоков: (1,22), (25,57) (совпадают для обоих выравниваний), (214,303)=(211,300). Примеры несовпадения позиций в выравниваниях (между совпадающими блоками): (58,63) (позиции совпадают, распределение гэпов - нет), (192,200)!=(191,197).
*Знак != обозначает позиции с теми же ак-тами (и гэпами) в несовпадающем участке.

Для первой пары выравниваний очевидно большее сходство, поскольку совпадения наблюдаются не только для аминокислот, но и для гэпов. К тому же, первая пара содержит большие доли совпадающих позиций по цепи (SP) и по колонкам (CP). Во второй паре выравнивание ClustalW разбивает совпадающие блоки гэпами. Различия в выравниваниях объясняются тем, что программы работают по разным алгоритмам и, соответственно, по-разному разрешают спорные, то есть с низкой степенью сходства, участки выравнивания. Наибольшим сходством обладают программы MSAProbs и MAFFT.

3. Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA

Для выполнения задания было выбрано семейство доменов Bacteriocin_IIi (Pfam AC: PF11758). Выравнивались следующие белки : PDB_ID: 2N8O из Staphylococcus aureus, PDB_ID: 2N8P из Lactococcus lactis и PDB_ID: 6SIG из Staphylococcus epidermidis.

С помощью сервиса Pairwise Structure Alignment на сайте PDB было получено пространственное выравнивание методом TM-align (2N8O в качестве референса), результаты приведены в табл.3 и на рис.1. Также было построено выравнивание последовательностей в Jalview алгоритмом Mafft (вкладка "Mafft align"), там же можно ознакомиться с выравниванием из PDB (вкладка "3D align").

Рис. 1 — **Табл. 3.** Результат пространственного выравнивания методом TM-align.

Рис. 2 — **Рис. 1.** Совмещение структур анализируемых белков методом TM-align: 2N8O (оранж.), 2N8P (син.), 6SIG (зелен.).

Согласно табл.3, белки из Staphylococcus aureus (2N8O) и Lactococcus lactis (2N8P) обладают большим процентом индентичных аминокислот. Интересно, что по параметру TM-score (template modeling score, более точная оценка глобального сходства полноразмерных белковых структур, чем RMSD [2]) большее сходство наблюдается для белков 2N8O и 6SIG, что можно связать с родовой принадлежностью огранизмов, из которых данные белки были выделены (Staphylococcus). Анализируемый домен выравнивается по всей длине (рис.1). При построении выравнивания исходных последовательностей чуть лучше выравнивается начало, поскольку не происходит потери метионина у 6SIG.

Благодаря небольшому размеру белков становится удобным визуальное сравнение разных выравниваний. И без редактирования парных выравниваний TM-align довольно наглядно их сходство с выравниванием Mafft: одинаково выровненными колонками являются с 3 по 49, что обусловлено консервативными позициями (12, 15, 17, 19, 22-23, 26-27, 30, 32, 34, 36, 41, 47 позиции). Несовпадающими, проблемными участками в целом для обоих выравниваний являются самое начало (1-2 позиции) и конец (начиная с 50 позиции). Можно сказать, что белки функционально гомологичны, что видно как из выравнивания Mafft исходных последовательностей, так и из пространственного выравнивания структур TM-align.

4. Описание команды Mafft

Mafft - программа множественного выравнивания (MSA), опубликованная в 2002 году. Основные заложенные методики: идентификация гомологичных областей с помощью быстрого преобразования Фурье (БПФ или FFT) и упрощенная система подсчета очков, позволяющая сократить процессорное время и повысить точность выравнивания сложных (с большими вставками и отдаленно связанные) последовательностей. Используются две эвристики: прогрессивные методы и методы итеративного уточнения, а также методы структурного выравнивания для РНК (добавлено в 2007).

Аминокислотные последовательности задаются как векторы от компонента объема и компонента полярности, поскольку нейтральные мутации, затрагивающие данные параметры, сохраняют структуру белков, то есть последовательности с нейтральными мутациями могут быть выровнены. Вычисляется корреляция между двумя аминокислотными последовательностями (т.е. векторами) и строится попарное выравнивание [3]. Используя рассчитанные попарные выравнивания, выполняется вычесление матрицы расстояний для оценки различий между выравниваниями. Происходит организация последовательностей на основе их сходства. На основе матрицы расстояний строится направляющее дерево, в котором узлами являются кластеры, а ветви отражают расстояния между кластерами. По иерархии направляющего дерева выполняется прогрессивное выравнивание кластеров от листьев к корню. Последний этап - итеративное уточнение, повторяется весь процесс с корректировкой положения инделей для повышения точности выравнивания.

В зависимости от потребностей исследователя можно установить собственные настройки параметров матрицы подсчета, штрафа за открытие инделя и штрафа за расширение инделя.

MAFFT считается одним из наиболее точных и универсальных инструментов выравнивания нескольких последовательностей. Исследования показали, что MAFFT работает исключительно хорошо по сравнению с другими популярными алгоритмами, такими как ClustalW и T-Coffee, особенно для больших наборов данных и последовательностей с высокой степенью расхождения [4].

Источники:

Презентация с семинара (alt: Zhang Y, et al. A survey on the algorithm and development of multiple sequence alignment. Brief Bioinform. 2022 May 13;23(3):bbac069)
Template modeling score, Wikipedia
Kazutaka Katoh, Kazuharu Misawa, Kei‐ichi Kuma, Takashi Miyata, MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform, Nucleic Acids Research, Volume 30, Issue 14, 15 July 2002, Pages 3059–3066, https://doi.org/10.1093/nar/gkf436
MAFFT, Wikipedia