1. Сравнение выравнивания одних и тех же последовательностей тремя разными программами MSA

Для сравнения результатов работы трёх программ множественного выравнивания был выбран ГТФазный домен SRP54-подобных белков, участвующих в распознавании сигнальной последовательности в синтезируемом белке, связывании с рибосомой, замедляя трансляцию, доставке рибосомы и белка к мембране ЭР или плазматической мембране у прокариот. Гидролиз GTP обеспечивает энергию для диссоциации комплекса SRP-рибосома-белок.

Выравнивание было произведено при помощи трех программ: Mafft, Muscle, ClustalO, причем в качестве референсного было выбрано выравнивание Mafft. Результаты сравнения выравниваний с помощью программы MACHO представлены в таблицах 1 и 2 (указаны координаты колонок, выровненных одинаково).

Файл с выравниванием

Таблица 1. Сравнение выравниваний Mafft и Muscle.
Block Alignment_Mafft Alignment_Muscle
1 1-11 1-11
2 15-24 15-24
3 35-64 35-64
4 99-126 100-127
5 162-165 160-163
6 168-218 166-216
Таблица 2. Сравнение выравниваний Mafft и ClustalO.
Block Alignment_Mafft Alignment_ClustalO
1 1-12 1-12
2 19-24 19-24
3 33-58 33-58
4 60-61 60-61
5 63-70 63-70
6 99-125 97-123
7 128-132 126-130
9 162-164 157-159
10 168-223 163-218
Обсуждение результатов

Для пары выравниваний Mafft/Muscle длина последовательностей и процент совпадающий колонок соответственно равны: 223/221 и 60.54%/61.09 %. Для пары выравниваний Mafft/ClustalO: 238/218 и 65.47%/66.97%

Из сравнения следует, что большим сходством (числом одинаково выровненных колонок) обладают программы Mafft и ClustalO, но при этом наблюдается большая разница в длине.

Примечательно, что в выравнивании Muscle индели иногда идут через через 1-2 нуклеотида (рис. 1), что с эволюционной точки зрения очень маловероятно, а программа ClustalO делает более "компактное" выравнивание, по сравнению с Mafft, кроме того, алгоритм ClustalO более похож на Muscle, чем на Mafft (с оценкой в более 68% совпадающих колонок).

Рисунок 1. Отличия в выравниваниях программами Mafft, Muscle, ClustalO

2. Построение выравнивания по совмещению структур и его сравнение

Для этого задания из базы Pfam были выбраны 3D структуры и последовательности трёх белков, содержащих 2Fe-2S железосерный связывающий домен (PF00111): SPINACH FERREDOXIN from Spinacia oleracea (1A70), [2Fe-2S] Domain of Methane Monooxygenase Reductase from Methylococcus capsulatus (1JQ4), PUTIDAREDOXIN from Pseudomonas putida (1PDX). Для всех белков взята цепь A, получено совмещение пространственных структур (рис.2) и построено два выравнивания: ручное из совмещения структур и автоматическое программой Mafft.

Файл с выравниванием

Совмещение трех пространственных структур
Рисунок 2. Совмещение трех пространственных структур

Для пары выравниваний Manual/Mafft длина последовательностей и процент совпадающий колонок соответственно равны: 121/116 и 39.67% /41.38%. Такой относительно небольшой процент совпадения (табл. 3) можно объяснить несовершенностью ручного выравнивания за счёт большого количества ненужных гэпов. Тем не менее, хорошо выравниваются в обоих способах участки 6-11 и 18-21, 28-32, что соответствует совместившимся бета-листам и альфа-спиралям в структурах белков, поэтому можно сделать вывод, что пространственные структуры трёх белков сходны, за исключением петель - участков, не образующих регулярные вторичные структуры, так как они в меньшей степени влияют на геометрию белка, а значит, могут быть более функционально гибкими и вариабельными.

таблица 3. Сравнение выравниваний Manual и Mafft
Block Alignment_Manual Alignment_Mafft
1 1-11 1-11
2 17-37 16-36
3 42-44 41-43
4 53-62 51-60
5 75-75 69-69
6 88-89 87-88

Описание MAFFT - программы MSA

Множественное выравнивание последовательностей — это фундаментальная задача в биоинформатике, используемая для анализа структурных, функциональных и эволюционных связей. Традиционные методы, такие как Clustal, MUSCLE, T-COFFEE, хотя и достаточно точны, сталкиваются с проблемами масштабируемости и скорости при обработке огромных данных, таких как геномные и метагеномные последовательности. Эту проблему решает программа MAFFT, за счёт следующих принципов работы:

1. Использование FFT для быстрого поиска гомологичных сегментов

Преобразование Фурье (FFT) применяется для быстрого вычисления корреляционных функций между последовательностями. Для аминокислот используют векторы, компоненты которых — это значения физических свойств, например, объема v(a) и полярности p(a), нормализованные по среднему и стандартному отклонению.

v̂(a) = [v(a) – v̄]/σn (1) и p̂(a) = [ p(a)– p̄]/σp

В классических методах, таких как Needleman–Wunsch или Smith–Waterman, сравнение двух последовательностей — это (O(N^2)) операция. В случае больших наборов данных это становится непрактично. В MAFFT используют FFT, чтобы быстро находить похожие участки, что позволяет снизить сложность до порядка (O(N \log N)).

2. После выявления гомологичных участков с помощью FFT используют прогрессивное выравнивание, основанное на матрице сходства.

3. Итеративное рафинирование — для повышения точности итогового выравнивания. Прогрессивные методы выравнивают последовательности последовательно, начиная с наиболее близких пар, постепенно добавляя более отдалённые, но ошибки, допущенные на ранних этапах, не исправляются. Основные принципы итеративного уточнения в MAFFT: разбиение исходного выравнивания на подгруппы, повторное выравнивание подгрупп, замена повторно выровненными участками соответствующих участков в общем множественном выравнивании, многократное повторение процесса (обычно несколько десятков или сотен итераций) до наблюдения улучшения оценки.

4. В отличие от программы ClustalW, система оценки MAFFT проста: матрица сходства фиксирована для любых входных данных, и даже штраф за расширение пропуска не включен явно в алгоритм динамического программирования. Тем не менее, точность NW-NS-2/FFT-NS-2 сопоставима с точностью CLUSTALW.

Тесты на симуляциях и реальных данных

В рамках экспериментов использовались симуляции, созданные с помощью программы ROSE, моделирующей разные уровни гомологии. В сравнении с классическими методами, такими как ClustalW, MUSCLE, T-COFFEE, и новыми — FFT-NS-2 и FFT-NS-i, новые алгоритмы показывают: высокую скорость, особенно при больших объёмах данных; уменьшение времени работы с увеличением числа последовательностей; сравнимую или превосходящую точность, особенно при выравнивании далёких последовательностей.