В этом практикуме я сравнивал выравнивания последовательностей белков из семейства PF00001 программами tcoffee, muscle, mafft и clustal. Я пользовался программой, написанной Славой Масленниковым.
Всего было 63 последовательности белков, длина выравнивания в программе tcoffee - 984, в muscle - 724, в mafft - 802, в clustal - 651.
Сравнение выравниваний программ tcoffee и muscle:
Процент совпадающих колонок в первом выравнивании: 22.97 %.
Процент совпадающих колонок во втором выравнивании: 31.22 %.
Число совпадающих блоков: 12.
| Tcoffee | Muscle | Длина блока |
| 30-44 | 26-40 | 15 |
| 57-61 | 59-63 | 5 |
| 95-113 | 91-109 | 19 |
| 141-149 | 137-145 | 9 |
| 488-512 | 413-437 | 25 |
| 522-598 | 444-520 | 77 |
| 615-627 | 543-555 | 13 |
| 632-642 | 560-570 | 11 |
| 676-678 | 583-585 | 3 |
| 865-890 | 605-630 | 26 |
| 927-932 | 669-674 | 6 |
| 971-984 | 711-724 | 14 |
Кроме того, совпали 3 пары одиночных колонок: 7/7, 80/82, 132/129.
Всего совпало колонок: 226.
Сравнение tcoffee и mafft:
Процент совпадающих колонок в первом выравнивании: 20.02 %.
Процент совпадающих колонок во втором выравнивании: 24.56 %.
Число совпадающих блоков: 16.
| Tcoffee | Mafft | Длина блока |
| 30-42 | 29-41 | 13 |
| 57-58 | 57-58 | 2 |
| 110-113 | 111-114 | 4 |
| 290-291 | 281-282 | 2 |
| 357-387 | 327-357 | 31 |
| 390-405 | 360-375 | 16 |
| 444-447 | 411-414 | 4 |
| 468-477 | 435-444 | 10 |
| 493-496 | 460-463 | 4 |
| 535-551 | 500-516 | 17 |
| 562-598 | 527-563 | 37 |
| 615-627 | 580-592 | 13 |
| 632-638 | 597-603 | 7 |
| 676-678 | 620-622 | 3 |
| 865-887 | 642-664 | 23 |
| 978-984 | 796-802 | 7 |
Кроме того, совпали 4 пары одиночных колонок: 26/27, 44/43, 106/107, 280/267.
Всего совпало колонок: 197.
Сравнение tcoffee и clustal:
Процент совпадающих колонок в первом выравнивании: 18.5 %.
Процент совпадающих колонок во втором выравнивании: 27.96 %.
Число совпадающих блоков: 9.
| Tcoffee | Clustal | Длина блока |
| 31-42 | 25-36 | 12 |
| 87-119 | 69-101 | 33 |
| 279-291 | 182-194 | 13 |
| 530-598 | 394-462 | 69 |
| 615-627 | 479-491 | 13 |
| 632-642 | 496-506 | 11 |
| 676-678 | 519-521 | 3 |
| 865-872 | 541-548 | 8 |
| 966-984 | 633-651 | 19 |
Кроме того, совпала 1 пара одиночных колонок: 44/38.
Всего совпало колонок: 182.
Сравнение muscle и mafft:
Процент совпадающих колонок в первом выравнивании: 24.31 %.
Процент совпадающих колонок во втором выравнивании: 21.95 %.
Число совпадающих блоков: 9.
| Muscle | Mafft | Длина блока |
| 25-38 | 28-41 | 14 |
| 58-60 | 56-58 | 3 |
| 106-110 | 111-115 | 5 |
| 418-421 | 460-463 | 4 |
| 457-473 | 500-516 | 17 |
| 484-527 | 527-570 | 44 |
| 542-566 | 579-603 | 25 |
| 573-627 | 610-664 | 55 |
| 718-724 | 796-802 | 7 |
Кроме того, совпали 2 пары одиночных колонок: 40/43, 102/107.
Всего совпало колонок: 176.
Сравнение muscle и clustal:
Процент совпадающих колонок в первом выравнивании: 26.52 %.
Процент совпадающих колонок во втором выравнивании: 29.49 %.
Число совпадающих блоков: 5.
| Muscle | Clustal | Длина блока |
| 27-38 | 25-36 | 12 |
| 91-109 | 77-95 | 19 |
| 452-527 | 394-469 | 76 |
| 542-612 | 478-548 | 71 |
| 711-724 | 638-651 | 14 |
Всего совпало колонок: 192.
Сравнение mafft и clustal:
Процент совпадающих колонок в первом выравнивании: 20.7 %.
Процент совпадающих колонок во втором выравнивании: 25.5 %.
Число совпадающих блоков: 8.
| Mafft | Clustal | Длина блока |
| 30-43 | 25-38 | 14 |
| 111-114 | 92-95 | 4 |
| 266-269 | 178-181 | 4 |
| 281-282 | 193-194 | 2 |
| 500-516 | 399-415 | 17 |
| 527-603 | 426-502 | 77 |
| 610-649 | 509-548 | 40 |
| 796-802 | 645-651 | 7 |
Кроме того, совпала 1 пара одиночных колонок: 5/6.
Всего совпало колонок: 166.
Таким образом, можно заметить, что из 4 использованных программ выравнивания наиболее близкие результаты выдают tcoffee и muscle; при этом наиболее длинные блоки с одинаково выровненными последовательностями получаются у программ muscle и clustal.
Я сравнивал выравнивания 3 белков из семейства PF00001: бычий родопсин 1hzx, человеческий рецептор хемокинов 2lnl и человеческий бета-2-адренорецептор 2r4r.
Выравнивание программой Expresso.
Выравнивание программой muscle в Jalview.
Результаты сравнения выравниваний:
Число последовательностей: 3
Длина первого выравнивания: 443
Длина второго выравнивания: 470
Процент совпадающих колонок в первом выравнивании: 46.05 %
Процент совпадающих колонок во втором выравнивании: 43.4 %
Число совпадающих блоков: 12
| Muscle | Expresso | Длина блока |
| 61-92 | 57-88 | 32 |
| 111-153 | 105-147 | 43 |
| 158-174 | 152-168 | 17 |
| 222-245 | 250-273 | 24 |
| 254-257 | 282-285 | 4 |
| 261-270 | 289-298 | 10 |
| 282-283 | 310-311 | 2 |
| 287-309 | 315-337 | 23 |
| 337-355 | 364-382 | 19 |
| 358-371 | 385-398 | 14 |
| 401-407 | 428-434 | 7 |
| 422-428 | 449-455 | 7 |
Таким образом, видно, что выравнивание, основанное на совмещении структур, отличается от выравнивания, основанного только на последовательностях - они совпадают менее чем на 50%.
Muscle - программа множественного выравнивания аминокислотных и нуклеотидных последовательностей. В отличие от таких программ, как CLUSTALW, она не выравнивает последовательности сразу целиком, а сначала считает количество общих k-меров, на основании которого строит дерево, необходимое для прогрессивного выравнивания. В каждом узле дерева запускается попарное выравнивание - сперва между парами последовательностей, а далее между последовательностями и результатами проведенных выравниваний.
Завершив множественное выравнивание, программа вычисляет вес попарных выравниваний последовательностей, и на основании полученной матрицы строит новое дерево; после этого полученные деревья сравниваются, и, если они не совпадают (что бывает довольно редко и, как правило, имеет место ближе к корню дерева), прогрессивное выравнивание проводится еще раз. Процедура повторяется, пока не получится достаточно стабильный набор деревьев, либо пока не будет достигнуто максимально допустимое число повторений.