Практикум 13

Сравнение выравнивания одних и тех же последовательностей тремя разными программами

Выбор семейства белков и их выравнивания

Я продолжаю работать с семейством из практикумма 11
Имя семейства Pfam: Connexin
AC: PF00029
Программы выравнивания: Muscle, Mafft, Probcons
Проект с 3 выравниваниями в Jalview

Сравнение 3 выравниваний

Для получения сравнений выравниваний использовался код, написанный моим однокурсником

Таблица 1. Mafft и Muscle (блоки)
Mafft Muscle
1 1-35 1-35
2 45-47 45-47
3 49-50 51-52
4 60-61 62-63
5 68-83 70-85
6 91-109 91-109
7 378-389 241-252
8 393-393 256-256
9 451-475 295-319
Таблица 2. Mafft и Muscle (Cтолбцы)
Mafft Muscle
1 404-404 263-263
2 422-422 277-277
3 439-439 282-282
4 448-448 292-292

В сравнении выравниваний Mafft и Muscle есть относительно длинные блоки (до 35 а.к.о.). Это говорит о схожести этих алгоритмов. Также блоки в первой половине располагаются в относительно одинаковых местах выравниваний. Это может говорить о том, что первая часть белка боолее консервативна , или что в начале выравнивания гэпы от предыдущих частей (мутации, произошедшие в предшествовавшей последовательности) еще не успели сильно сдвинуть номера блоков.

Таблица 2. Mafft и Probcons (блоки)
Mafft Probcons
1 1-10 1-10
2 13-21 14-22
3 27-32 28-33
4 36-42 37-43
5 45-48 46-49
6 52-61 53-62
7 69-71 70-72
8 75-77 75-77
9 80-83 80-83
10 91-109 89-107
11 378-389 556-567
12 435-437 595-597
13 451-477 616-642
Таблица 4. Mafft и Probcons (Cтолбцы)
Mafft Probcons
1 24-24 25-25
2 50-50 51-51
3 88-88 86-86
4 138-138 264-264
5 405-405 579-579
6 417-417 589-589
7 426-426 603-603

В сравнении выравниваний Mafft и Probcons есть относительно длинные блоки (до 27 а.к.о.), но большинство не превышает длину в 10 а.к.о. Это говорит о меньшей схожести этих алгоритмов, чем у Mafft и Muscle. Также большинство блоков располагаются в относительно одинаковых местах выравниваний и находятся в начале выравнивания. Это может говорить о том, что первая часть белка боолее консервативна, или что в начале выравнивания гэпы от предыдущих частей (мутации, произошедшие в предшествовавшей последовательности) еще не успели сильно сдвинуть номера блоков.

Таблица 5. Muscle и Probcons
Muscle Probcons
1 1-10 1-10
2 13-21 14-22
3 27-32 28-33
4 45-47 46-48
5 62-65 61-64
6 71-73 70-72
7 77-79 75-77
8 82-87 80-85
9 90-109 88-107
10 241-255 556-570
11 257-262 572-577
12 294-319 615-640
13 327-330 648-651
Таблица 6. Muscle и Probcons (Cтолбцы)
Muscle Probcons
1 24-24 25-25
2 52-52 51-51

В сравнении выравниваний Muscle и Probcons есть относительно длинные блоки (до 26 а.к.о.), но большинство не превышает длину в 10 а.к.о. Это говорит о меньшей схожести этих алгоритмов, чем у Mafft и Muscle. При этом количество общих блоков у Muscle и Probcons меньше, чем у Mafft и Probcons, так что можно сказать, что Probcons ближе к Mafft, чем к Muscle. Также большинство блоков располагаются в относительно одинаковых местах выравниваний и находятся в начале выравнивания. Это может говорить о том, что первая часть белка более консервативна, или что в начале выравнивания гэпы от предыдущих частей (мутации, произошедшие в предшествовавшей последовательности) еще не успели сильно сдвинуть номера блоков.

Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA

Проект в Jalview

Таблица 7. PDB и Muscle
PDB Muscle
1 5-7 5-7
2 16-21 15-20
3 210-210 209-209
4 272-288 273-289
5 301-327 302-328
Совмещение 3D-струкрур 3 белков
Рис 1. Совмещение 3D-струкрур 3 белков

В сравнении выравнивания по структуре и множественного выравнивания можно заметить, что у них очень мало общих блоков, хотя среди них есть и относительно длинный блок (27 а.к.о.). Это может говорить о том, что множественное выравнивание не всегда отображает структуру, и следовательно, не всегда верно, так как структцрные единицы более эволюционно устойчивы. Но также это говорит о том, что в данном белке есть консервативный домен, нашедший место и в структурном, и в множественном выравниваниях.

Краткое описание одной из программ MSA: ClustalW

Clustal (от англ. Cluster alignment) написанна на С++. ClustalW - это третье поколение программ Clustal, выпущенное в 1994 году. По сравнению с предыдущими версиями, улучшился алгоритм прогрессивного выравнивания, так как туда стали включаться опции взвешивания последовательностей на основе сходства и расхождения. Также появилась возможность запуска Clustal в пакетном режиме из командной строки.

Алгоритм: ClustalW использует алгоритмы прогрессивного выравнивания, которые определяют приоритетность последовательностей для выравнивания на основе сходства, пока не будет получено глобальное выравнивание. Этот алгоритм основан на матрице. Последовательности выравниваются в порядке наибольшего и наименьшего количества баллов. Сначала алгоритм вычисляет попарную матрицу расстояний между всеми парами последовательностей (попарное выравнивание последовательностей). Далее, методом neighbor joining создается общее направляющее дерево, которое используется в качестве приблизительного шаблона для создания глобального выравнивания. Для вычисления глобального выравнивания ClustalW требуются три или более последовательности.

По результатам сравнения алгоритмов множественного выравнивания в 2014, ClustalW был признан одним из быстрейших, способных выдавать результаты с высокой степенью точности.

Источник: Wikipedia: Clustal