Учебный сайтик
Кирилла Прокаповича

Сравнение алгоритмов множественного выравнивания

Для сравнения алгоритмов, я выравнивал домен Hsp70 с помощью трех программ: MUSCLE, MAFFT, TCOFFE. В качестве сравнения приводилось выравнивание, сделанное с помощью MAFFT. Для сравнения использовалась программа MOCHA, написанная моими однокурсниками Маслениковым Всеволодом, Гагарочкиным Виталием и Нагорным Даниилом(Спасибо им большое!).

Файл с тремя выравниваниями
Таблица 1. Сравнение алгоритмов множественного выравнивания MUSCLE и TCOFFEE с MAFFT
Программы Длина выравнивания MAFFT Доля одинаково выровненных колонок Длина второго выравнивания Доля одинаково выровненных колонок Координаты блоков в первом выравнивании Координаты блоков во втором выравнивании
MAFFT и MUSCLE 700 64.71% 692 65.46% 1-39
44-45
48-93
105-106
109-109
111-188
192-194
196-196
200-287
290-297
299-304
307-308
310-338
343-401
406-406
445-465
480-515
558-558
670-671
1-39
44-45
48-93
104-105
108-108
110-187
191-193
195-195
199-286
289-296
298-303
307-308
310-338
343-401
406-406
408-435
445-465
480-515
547-547
678-679
MAFFT и TCOFFEE 700 58.00% 723 56.15% 1-39
47-71
76-93
111-187
191-194
199-217
219-221
223-250
252-254
256-257
266-287
290-296
298-299
304-304
306-306
310-338
343-400
409-424
427-429
432-433
443-447
480-489
499-517
547-550
643-645
691-695
697-697
1-39
47-71
76-93
113-189
193-196
201-219
221-223
225-252
254-256
258-259
269-290
293-299
301-302
307-307
309-309
313-341
346-403
414-429
432-434
437-438
448-452
486-495
506-524
583-586
678-680
714-718
720-720

По таблице 1 можно понять, что MUSCLE точнее выравнивает последовательности, чем TCOFFEE, потому, что у него процент совпадающих участков больше.

Сравнение выравнивания по структуре и MSA

Для такого выравнивания я взял NMR STRUCTURE OF THE SUBSTRATE BINDING DOMAIN OF DNAK, MINIMIZED AVERAGE STRUCTURE (AC(pdb):1bpr), THE SUBSTRATE BINDING DOMAIN OF DNAK IN COMPLEX WITH A SUBSTRATE PEPTIDE, DETERMINED FROM TYPE 2 NATIVE CRYSTALS (AC:1dky) и HIGH RESOLUTION SOLUTION STRUCTURE OF THE HEAT SHOCK COGNATE-70 KD SUBSTRATE BINDING DOMAIN OBTAINED BY MULTIDIMENSIONAL NMR TECHNIQUES (AC: 1ckr)

Выравнивания этих трех белков
Рисунок 1. Совмещение 3х структур

Длина первого выравнивания(pdb): 531
Длина второго выравнивания(mafft): 403
Процент совпадающих колонок в первом выравнивании: 15.03%
Процент совпадающих колонок во втором выравнивании: 20.60%

Рисунок 1. Выдача программы MOCHA по выравниванию MAFFT и выравниванию по структурам

Видим маленький процент совпадающих колонок, возможно в ходе эволюции могли быть приобретены различные мутации, которые изменили на последовательность

Краткое описание программы MUSCLE

Программа является одной из самых точных среди конкурентов, а также очень быстрой. Она работает за счет 3 фазового алгоритма: построение начального дерева (k-мерное расстояние), итеративное улучшение выравнивания, финальная оптимизация по профилям, такой подход позволяет достигнуть баланс качества и скорости, поэтому MUSCLE является одной из лучших программ для выравнивания последовательностей.