Для сравнения алгоритмов, я выравнивал домен Hsp70 с помощью трех программ: MUSCLE, MAFFT, TCOFFE. В качестве сравнения приводилось выравнивание, сделанное с помощью MAFFT. Для сравнения использовалась программа MOCHA, написанная моими однокурсниками Маслениковым Всеволодом, Гагарочкиным Виталием и Нагорным Даниилом(Спасибо им большое!).
Программы | Длина выравнивания MAFFT | Доля одинаково выровненных колонок | Длина второго выравнивания | Доля одинаково выровненных колонок | Координаты блоков в первом выравнивании | Координаты блоков во втором выравнивании |
---|---|---|---|---|---|---|
MAFFT и MUSCLE | 700 | 64.71% | 692 | 65.46% | 1-39 44-45 48-93 105-106 109-109 111-188 192-194 196-196 200-287 290-297 299-304 307-308 310-338 343-401 406-406 445-465 480-515 558-558 670-671 |
1-39 44-45 48-93 104-105 108-108 110-187 191-193 195-195 199-286 289-296 298-303 307-308 310-338 343-401 406-406 408-435 445-465 480-515 547-547 678-679 |
MAFFT и TCOFFEE | 700 | 58.00% | 723 | 56.15% | 1-39 47-71 76-93 111-187 191-194 199-217 219-221 223-250 252-254 256-257 266-287 290-296 298-299 304-304 306-306 310-338 343-400 409-424 427-429 432-433 443-447 480-489 499-517 547-550 643-645 691-695 697-697 |
1-39 47-71 76-93 113-189 193-196 201-219 221-223 225-252 254-256 258-259 269-290 293-299 301-302 307-307 309-309 313-341 346-403 414-429 432-434 437-438 448-452 486-495 506-524 583-586 678-680 714-718 720-720 |
По таблице 1 можно понять, что MUSCLE точнее выравнивает последовательности, чем TCOFFEE, потому, что у него процент совпадающих участков больше.
Для такого выравнивания я взял NMR STRUCTURE OF THE SUBSTRATE BINDING DOMAIN OF DNAK, MINIMIZED AVERAGE STRUCTURE (AC(pdb):1bpr), THE SUBSTRATE BINDING DOMAIN OF DNAK IN COMPLEX WITH A SUBSTRATE PEPTIDE, DETERMINED FROM TYPE 2 NATIVE CRYSTALS (AC:1dky) и HIGH RESOLUTION SOLUTION STRUCTURE OF THE HEAT SHOCK COGNATE-70 KD SUBSTRATE BINDING DOMAIN OBTAINED BY MULTIDIMENSIONAL NMR TECHNIQUES (AC: 1ckr)
Длина первого выравнивания(pdb): 531
Длина второго выравнивания(mafft): 403
Процент совпадающих колонок в первом выравнивании: 15.03%
Процент совпадающих колонок во втором выравнивании: 20.60%
Видим маленький процент совпадающих колонок, возможно в ходе эволюции могли быть приобретены различные мутации, которые изменили на последовательность
Программа является одной из самых точных среди конкурентов, а также очень быстрой. Она работает за счет 3 фазового алгоритма: построение начального дерева (k-мерное расстояние), итеративное улучшение выравнивания, финальная оптимизация по профилям, такой подход позволяет достигнуть баланс качества и скорости, поэтому MUSCLE является одной из лучших программ для выравнивания последовательностей.