Для сравнительного анализа были выбраны следующие программы множественного выравнивания (multiple sequence alignment algorithm, MSA): MSAProbs, MAFFT, ClustalW. Выбор программ основывался на времени работы, году публикации и значении среднего веса выравниваний, проводимых для оценки точности алгоритма относительно "идеальных" выравниваний из базы данных BaliBase [1], характеристики приведены в табл. 1.
Program | Average score | Totale time, s | year |
MSAProbs | 0.607 | 12382 | 2010 |
MAFFT | 0.588 | 1475 | 2002 |
ClustalW | 0.374 | 766 | 1994 |
Из таблицы видно, что MSAProbs является наиболее точной, но также времязатратной программой. Также, как указано на официальном сайте, MSAProbs обеспечивает статистически значимое повышение точности по сравнению с другими программами. Использование алгоритма MAFFT кажется оптимальным вариантом, не сильно проигрывающем в показателе веса. ClustalW выделяется меньшим временем работы.
Для выполнения задания были взяты белки из практикума 9, пункта 5.
Проект Jalview, все программы были запущены с базовыми параметрами. Сравнение выравниваний проводилось с помощью сервиса VerAlign.
Program | SP score | CS score | avg_SPdist score |
MSAProbs + MAFFT | 0.96 | 0.94 | 0.99 |
MSAProbs + ClustalW | 0.95 | 0.92 | 0.98 |
SP: Sum-of-Pairs Score, доля одинаково выровненных пар в тестовом выравнивании относительно референса, по месту положения в цепи;
CP: Column Score, доля одинаково выровненных позиций, то есть по колонкам;
avg_SPdist: включает информацию о расстоянии между парами невыровненных остатков.
По заданию необходимо сравнить программы A с B и A с C. Алгоритм MSAProbs выбран в качестве программы А, поскольку обладает лучшими характеристиками.
MSAProbs + MAFFT Сравнение выравниваний показало, что они имеют длинные совпадающие блоки*: (1,146) (совпадает для обоих выравниваний), (200,317)=(199,316),
(363,377)=(362,376), (384,409)=(382,407) и несколько коротких. Примеры несовпадения позиций в выравниваниях (между совпадающими блоками): (147,199)!=(146,198), (378,383)!=(377,381).
*Первые два блока имеют в своем составе совпадающие для выравниваний гэпы.
MSAProbs + ClustalW Данные выравнивания имеют не такие протяженные совпадающие блоки за счет перераспределения гэпов. Примеры совпадающих блоков: (1,22), (25,57) (совпадают для обоих
выравниваний), (214,303)=(211,300). Примеры несовпадения позиций в выравниваниях (между совпадающими блоками): (58,63) (позиции совпадают, распределение гэпов - нет), (192,200)!=(191,197).
*Знак != обозначает позиции с теми же ак-тами (и гэпами) в несовпадающем участке.
Для первой пары выравниваний очевидно большее сходство, поскольку совпадения наблюдаются не только для аминокислот, но и для гэпов. К тому же, первая пара содержит большие доли совпадающих позиций по цепи (SP) и по колонкам (CP). Во второй паре выравнивание ClustalW разбивает совпадающие блоки гэпами. Различия в выравниваниях объясняются тем, что программы работают по разным алгоритмам и, соответственно, по-разному разрешают спорные, то есть с низкой степенью сходства, участки выравнивания. Наибольшим сходством обладают программы MSAProbs и MAFFT.
Для выполнения задания было выбрано семейство доменов Bacteriocin_IIi (Pfam AC: PF11758). Выравнивались следующие белки : PDB_ID: 2N8O из Staphylococcus aureus, PDB_ID: 2N8P из Lactococcus lactis и PDB_ID: 6SIG из Staphylococcus epidermidis.
С помощью сервиса Pairwise Structure Alignment на сайте PDB было получено пространственное выравнивание методом TM-align (2N8O в качестве референса), результаты приведены в табл.3 и на рис.1. Также было построено выравнивание последовательностей в Jalview алгоритмом Mafft (вкладка "Mafft align"), там же можно ознакомиться с выравниванием из PDB (вкладка "3D align").
Согласно табл.3, белки из Staphylococcus aureus (2N8O) и Lactococcus lactis (2N8P) обладают большим процентом индентичных аминокислот. Интересно, что по параметру TM-score (template modeling score, более точная оценка глобального сходства полноразмерных белковых структур, чем RMSD [2]) большее сходство наблюдается для белков 2N8O и 6SIG, что можно связать с родовой принадлежностью огранизмов, из которых данные белки были выделены (Staphylococcus). Анализируемый домен выравнивается по всей длине (рис.1). При построении выравнивания исходных последовательностей чуть лучше выравнивается начало, поскольку не происходит потери метионина у 6SIG.
Благодаря небольшому размеру белков становится удобным визуальное сравнение разных выравниваний. И без редактирования парных выравниваний TM-align довольно наглядно их сходство с выравниванием Mafft: одинаково выровненными колонками являются с 3 по 49, что обусловлено консервативными позициями (12, 15, 17, 19, 22-23, 26-27, 30, 32, 34, 36, 41, 47 позиции). Несовпадающими, проблемными участками в целом для обоих выравниваний являются самое начало (1-2 позиции) и конец (начиная с 50 позиции). Можно сказать, что белки функционально гомологичны, что видно как из выравнивания Mafft исходных последовательностей, так и из пространственного выравнивания структур TM-align.
Mafft - программа множественного выравнивания (MSA), опубликованная в 2002 году. Основные заложенные методики: идентификация гомологичных областей с помощью быстрого преобразования Фурье (БПФ или FFT) и упрощенная система подсчета очков, позволяющая сократить процессорное время и повысить точность выравнивания сложных (с большими вставками и отдаленно связанные) последовательностей. Используются две эвристики: прогрессивные методы и методы итеративного уточнения, а также методы структурного выравнивания для РНК (добавлено в 2007).
Аминокислотные последовательности задаются как векторы от компонента объема и компонента полярности, поскольку нейтральные мутации, затрагивающие данные параметры, сохраняют структуру белков, то есть последовательности с нейтральными мутациями могут быть выровнены. Вычисляется корреляция между двумя аминокислотными последовательностями (т.е. векторами) и строится попарное выравнивание [3]. Используя рассчитанные попарные выравнивания, выполняется вычесление матрицы расстояний для оценки различий между выравниваниями. Происходит организация последовательностей на основе их сходства. На основе матрицы расстояний строится направляющее дерево, в котором узлами являются кластеры, а ветви отражают расстояния между кластерами. По иерархии направляющего дерева выполняется прогрессивное выравнивание кластеров от листьев к корню. Последний этап - итеративное уточнение, повторяется весь процесс с корректировкой положения инделей для повышения точности выравнивания.
В зависимости от потребностей исследователя можно установить собственные настройки параметров матрицы подсчета, штрафа за открытие инделя и штрафа за расширение инделя.
MAFFT считается одним из наиболее точных и универсальных инструментов выравнивания нескольких последовательностей. Исследования показали, что MAFFT работает исключительно хорошо по сравнению с другими популярными алгоритмами, такими как ClustalW и T-Coffee, особенно для больших наборов данных и последовательностей с высокой степенью расхождения [4].
Источники: