Алгоритмы множественного выравнивания

Сравнение выравниваний, построенных разными программами

Для выравнивания были выбраны белки из семейства heparin-binding growth factors family, это семейство было выбрано по следующим критериям: чтобы последовательности были не очень длинными и можно было легко визуально проанализировать выравнивания, но и не слишком короткими, чтобы было, что анализировать; чтобы среди этих белков для многих была известна пространственная структура и была симпатичной для дальнейшего выравнивания по ней; чтобы сами белки были интересны с функциональной точки зрения. Для выравнивания я выбрала следующие 5 белков этого семейства:

UniProt ID Name Organism Function PDB AC
FGF4_HUMAN Fibroblast growth factor 4 Homo sapiens Регуляция эмбрионального развития, пролиферации и дифференцировки клеток 1ijt
FGF2_HUMAN Fibroblast growth factor 2 Homo sapiens Регуляция деления, миграций, дифференцировки, жизни клеток 1bas
FGF12_HUMAN Fibroblast growth factor 12 Homo sapiens Развитие и функционирование нервной системы 1q1u
FGF7_RAT Fibroblast growth factor 7 Rattus norvegicus Пролиферация клеток эпителия, фактор роста кератиноцитов
FGF21_HUMAN Fibroblast growth factor 21 Homo sapiens Поддержание гомеостаза глюкозы и чувствительности к инсулину

Я сравнивала программу MUSCLE с программами T-Coffee и Clustal, проект JalView. Для сравения выравниваний использовалась программа Михаила Изгагина

Длины самих последовательностей отличаются вплоть до 90 аминокислот. Тем не менее они хорошо выровнялись на достоверном участке с координатам ~ 175-300 (MUSCLE). Длины выравниваний: MUSCLE: 362; T-Coffee: 374; Clustal: 334.

MUSCLE T-Coffee block lenght MUSCLE Clustal block lenght
51-53 55-57 3 1-27 1-27 27
83-85 91-93 3 83-110 78-105 28
92-110 100-118 19 198-215 174-191 18
183-189 180-186 7 220-256 196-232 37
220-257 219-256 38 285-286 261-262 2
260-276 259-275 17
284-287 283-286 4
293-294 292-293 2
315-322 310-317 8
10 10

MUSCLE и Clustal имеют больший процент совпадающих колонок, чем MUSCLE и T-Coffee (35.64% против 32.87%), несмотря на то, что выравнивание Clustal примерно на 30 колонок короче, чем выравнивания MUSCLE и T-Coffee. MUSCLE и T-Coffee почти одинаковой длинны, но процент одинаковых колонок в них меньше, и выравнивания в целом отличаются больше, чем MUSCLE и Clustal. Также в сравнении MUSCLE и T-Coffee мы получаем много блоков, но большая часть из них короткая. В сравнении MUSCLE и Clustal блоков меньше, но они длиннее, что более правдоподобно с эволюционной точки зрения. То есть MUSCLE и Clustal справились с выравниванием лучше, чем T-Coffee. Выравние Clustal, видимо, имеет меньшую длинну за счет более оптимального выравнивания примерно с 1 по 160 колонку. По координатам одинаковых блоков также можно видеть, что консервативные блоки начинаются в выравнивании Clustal раньше, чем в выравниваниях MUSCLE и T-Coffee. Интересно сравнить Clustal со структурным выравниванием.

Сравнение со структурным выравниванием

Для структурного выравнивания были взяты первые три белка из выбранных выше, в таблице можно найти их PDB AC. Визуально структуры очень хорошо выравнялись вплоть до поворотов.

мое фото здесь
структурное выравнивание 1ijt, 1bas и 1q1u с разных ракурсов
Clustal Structural alignment block lenght
11-16 9-14 6
20-36 18-34 17
40-13838-13699
141-142139-1402
1816

Проект JalView. Сравнение выравниваний было выполнено программой Антона Куликова. Выравнивания одинаковой длинны и совпадают на 88%. То есть в данном случае алгоритмическое выравнивание показало очень точный результат относительно структурного. И на самом деле не только Clustle, но и MUSCLE и T-Coffee показали такой же хороший результат. Этого можно было ожидать, ведь участок последовательности достаточно консерввативен.

Описание работы алгоритма Clustal W

Алгоритм ClustalW использует прогрессивное выравнивание, то есть: попарно выравнивает последовательности, сторит матрицу растояний, строит напрявляющее дерево и, следуя ему, "достраивает" выравнивания для наиболее близких последовательностей, пока все последовательности не будут выравнены. Алгоритм отличается от остальных высокой чувствительностью, которая обеспечивается W - weighting — для последовательностей парных выравниваний расчитывается вес таким образом, что чем последовательности ближе эволюционно, тем он меньше, чем дальше — тем больше. Во-вторых, на каждой стадии выравнивания меняется матрица на наиболее подходящую в соответствии с дивергентностью последовательностей (т. е. на основе посчитанного веса). В-третьих, штрафы за гэп специфичны в соответствии с аминокислотными остатками, также снижается штраф за гэп при открытии гэпа на той же позиции, на которой он уже был открыт в другом выравнивании. Все это обеспечивает высокую точность алгоритма, в частности для нерегулярных участков.

Источники:
Using Clustal for multiple sequence alignment
CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment ...
Multiple Sequence Alignment Algorithms in Bioinformatics