Для сравнения результатов работы трёх программ множественного выравнивания был выбран ГТФазный домен SRP54-подобных белков, участвующих в распознавании сигнальной последовательности в синтезируемом белке, связывании с рибосомой, замедляя трансляцию, доставке рибосомы и белка к мембране ЭР или плазматической мембране у прокариот. Гидролиз GTP обеспечивает энергию для диссоциации комплекса SRP-рибосома-белок.
Выравнивание было произведено при помощи трех программ: Mafft, Muscle, ClustalO, причем в качестве референсного было выбрано выравнивание Mafft. Результаты сравнения выравниваний с помощью программы MACHO представлены в таблицах 1 и 2 (указаны координаты колонок, выровненных одинаково).
Block | Alignment_Mafft | Alignment_Muscle |
---|---|---|
1 | 1-11 | 1-11 |
2 | 15-24 | 15-24 |
3 | 35-64 | 35-64 |
4 | 99-126 | 100-127 |
5 | 162-165 | 160-163 |
6 | 168-218 | 166-216 |
Block | Alignment_Mafft | Alignment_ClustalO |
---|---|---|
1 | 1-12 | 1-12 |
2 | 19-24 | 19-24 |
3 | 33-58 | 33-58 |
4 | 60-61 | 60-61 |
5 | 63-70 | 63-70 |
6 | 99-125 | 97-123 |
7 | 128-132 | 126-130 |
9 | 162-164 | 157-159 |
10 | 168-223 | 163-218 |
Для пары выравниваний Mafft/Muscle длина последовательностей и процент совпадающий колонок соответственно равны: 223/221 и 60.54%/61.09 %. Для пары выравниваний Mafft/ClustalO: 238/218 и 65.47%/66.97%
Из сравнения следует, что большим сходством (числом одинаково выровненных колонок) обладают программы Mafft и ClustalO, но при этом наблюдается большая разница в длине.
Примечательно, что в выравнивании Muscle индели иногда идут через через 1-2 нуклеотида (рис. 1), что с эволюционной точки зрения очень маловероятно, а программа ClustalO делает более "компактное" выравнивание, по сравнению с Mafft, кроме того, алгоритм ClustalO более похож на Muscle, чем на Mafft (с оценкой в более 68% совпадающих колонок).
Для этого задания из базы Pfam были выбраны 3D структуры и последовательности трёх белков, содержащих 2Fe-2S железосерный связывающий домен (PF00111): SPINACH FERREDOXIN from Spinacia oleracea (1A70), [2Fe-2S] Domain of Methane Monooxygenase Reductase from Methylococcus capsulatus (1JQ4), PUTIDAREDOXIN from Pseudomonas putida (1PDX). Для всех белков взята цепь A, получено совмещение пространственных структур (рис.2) и построено два выравнивания: ручное из совмещения структур и автоматическое программой Mafft.
Для пары выравниваний Manual/Mafft длина последовательностей и процент совпадающий колонок соответственно равны: 121/116 и 39.67% /41.38%. Такой относительно небольшой процент совпадения (табл. 3) можно объяснить несовершенностью ручного выравнивания за счёт большого количества ненужных гэпов. Тем не менее, хорошо выравниваются в обоих способах участки 6-11 и 18-21, 28-32, что соответствует совместившимся бета-листам и альфа-спиралям в структурах белков, поэтому можно сделать вывод, что пространственные структуры трёх белков сходны, за исключением петель - участков, не образующих регулярные вторичные структуры, так как они в меньшей степени влияют на геометрию белка, а значит, могут быть более функционально гибкими и вариабельными.
Block | Alignment_Manual | Alignment_Mafft |
---|---|---|
1 | 1-11 | 1-11 |
2 | 17-37 | 16-36 |
3 | 42-44 | 41-43 |
4 | 53-62 | 51-60 |
5 | 75-75 | 69-69 |
6 | 88-89 | 87-88 |
Множественное выравнивание последовательностей — это фундаментальная задача в биоинформатике, используемая для анализа структурных, функциональных и эволюционных связей. Традиционные методы, такие как Clustal, MUSCLE, T-COFFEE, хотя и достаточно точны, сталкиваются с проблемами масштабируемости и скорости при обработке огромных данных, таких как геномные и метагеномные последовательности. Эту проблему решает программа MAFFT, за счёт следующих принципов работы:
1. Использование FFT для быстрого поиска гомологичных сегментов
Преобразование Фурье (FFT) применяется для быстрого вычисления корреляционных функций между последовательностями. Для аминокислот используют векторы, компоненты которых — это значения физических свойств, например, объема v(a) и полярности p(a), нормализованные по среднему и стандартному отклонению.
v̂(a) = [v(a) – v̄]/σn (1) и p̂(a) = [ p(a)– p̄]/σp p>
В классических методах, таких как Needleman–Wunsch или Smith–Waterman, сравнение двух последовательностей — это (O(N^2)) операция. В случае больших наборов данных это становится непрактично. В MAFFT используют FFT, чтобы быстро находить похожие участки, что позволяет снизить сложность до порядка (O(N \log N)).
2. После выявления гомологичных участков с помощью FFT используют прогрессивное выравнивание, основанное на матрице сходства.
3. Итеративное рафинирование — для повышения точности итогового выравнивания. Прогрессивные методы выравнивают последовательности последовательно, начиная с наиболее близких пар, постепенно добавляя более отдалённые, но ошибки, допущенные на ранних этапах, не исправляются. Основные принципы итеративного уточнения в MAFFT: разбиение исходного выравнивания на подгруппы, повторное выравнивание подгрупп, замена повторно выровненными участками соответствующих участков в общем множественном выравнивании, многократное повторение процесса (обычно несколько десятков или сотен итераций) до наблюдения улучшения оценки.
4. В отличие от программы ClustalW, система оценки MAFFT проста: матрица сходства фиксирована для любых входных данных, и даже штраф за расширение пропуска не включен явно в алгоритм динамического программирования. Тем не менее, точность NW-NS-2/FFT-NS-2 сопоставима с точностью CLUSTALW.
Тесты на симуляциях и реальных данных
В рамках экспериментов использовались симуляции, созданные с помощью программы ROSE, моделирующей разные уровни гомологии. В сравнении с классическими методами, такими как ClustalW, MUSCLE, T-COFFEE, и новыми — FFT-NS-2 и FFT-NS-i, новые алгоритмы показывают: высокую скорость, особенно при больших объёмах данных; уменьшение времени работы с увеличением числа последовательностей; сравнимую или превосходящую точность, особенно при выравнивании далёких последовательностей.