В этом практикуме я сравнивал выравнивания последовательностей белков из семейства PF00001 программами tcoffee, muscle, mafft и clustal. Я пользовался программой, написанной Славой Масленниковым.
Всего было 63 последовательности белков, длина выравнивания в программе tcoffee - 984, в muscle - 724, в mafft - 802, в clustal - 651.
Сравнение выравниваний программ tcoffee и muscle:
Процент совпадающих колонок в первом выравнивании: 22.97 %.
Процент совпадающих колонок во втором выравнивании: 31.22 %.
Число совпадающих блоков: 12.
Tcoffee | Muscle | Длина блока |
30-44 | 26-40 | 15 |
57-61 | 59-63 | 5 |
95-113 | 91-109 | 19 |
141-149 | 137-145 | 9 |
488-512 | 413-437 | 25 |
522-598 | 444-520 | 77 |
615-627 | 543-555 | 13 |
632-642 | 560-570 | 11 |
676-678 | 583-585 | 3 |
865-890 | 605-630 | 26 |
927-932 | 669-674 | 6 |
971-984 | 711-724 | 14 |
Кроме того, совпали 3 пары одиночных колонок: 7/7, 80/82, 132/129.
Всего совпало колонок: 226.
Сравнение tcoffee и mafft:
Процент совпадающих колонок в первом выравнивании: 20.02 %.
Процент совпадающих колонок во втором выравнивании: 24.56 %.
Число совпадающих блоков: 16.
Tcoffee | Mafft | Длина блока |
30-42 | 29-41 | 13 |
57-58 | 57-58 | 2 |
110-113 | 111-114 | 4 |
290-291 | 281-282 | 2 |
357-387 | 327-357 | 31 |
390-405 | 360-375 | 16 |
444-447 | 411-414 | 4 |
468-477 | 435-444 | 10 |
493-496 | 460-463 | 4 |
535-551 | 500-516 | 17 |
562-598 | 527-563 | 37 |
615-627 | 580-592 | 13 |
632-638 | 597-603 | 7 |
676-678 | 620-622 | 3 |
865-887 | 642-664 | 23 |
978-984 | 796-802 | 7 |
Кроме того, совпали 4 пары одиночных колонок: 26/27, 44/43, 106/107, 280/267.
Всего совпало колонок: 197.
Сравнение tcoffee и clustal:
Процент совпадающих колонок в первом выравнивании: 18.5 %.
Процент совпадающих колонок во втором выравнивании: 27.96 %.
Число совпадающих блоков: 9.
Tcoffee | Clustal | Длина блока |
31-42 | 25-36 | 12 |
87-119 | 69-101 | 33 |
279-291 | 182-194 | 13 |
530-598 | 394-462 | 69 |
615-627 | 479-491 | 13 |
632-642 | 496-506 | 11 |
676-678 | 519-521 | 3 |
865-872 | 541-548 | 8 |
966-984 | 633-651 | 19 |
Кроме того, совпала 1 пара одиночных колонок: 44/38.
Всего совпало колонок: 182.
Сравнение muscle и mafft:
Процент совпадающих колонок в первом выравнивании: 24.31 %.
Процент совпадающих колонок во втором выравнивании: 21.95 %.
Число совпадающих блоков: 9.
Muscle | Mafft | Длина блока |
25-38 | 28-41 | 14 |
58-60 | 56-58 | 3 |
106-110 | 111-115 | 5 |
418-421 | 460-463 | 4 |
457-473 | 500-516 | 17 |
484-527 | 527-570 | 44 |
542-566 | 579-603 | 25 |
573-627 | 610-664 | 55 |
718-724 | 796-802 | 7 |
Кроме того, совпали 2 пары одиночных колонок: 40/43, 102/107.
Всего совпало колонок: 176.
Сравнение muscle и clustal:
Процент совпадающих колонок в первом выравнивании: 26.52 %.
Процент совпадающих колонок во втором выравнивании: 29.49 %.
Число совпадающих блоков: 5.
Muscle | Clustal | Длина блока |
27-38 | 25-36 | 12 |
91-109 | 77-95 | 19 |
452-527 | 394-469 | 76 |
542-612 | 478-548 | 71 |
711-724 | 638-651 | 14 |
Всего совпало колонок: 192.
Сравнение mafft и clustal:
Процент совпадающих колонок в первом выравнивании: 20.7 %.
Процент совпадающих колонок во втором выравнивании: 25.5 %.
Число совпадающих блоков: 8.
Mafft | Clustal | Длина блока |
30-43 | 25-38 | 14 |
111-114 | 92-95 | 4 |
266-269 | 178-181 | 4 |
281-282 | 193-194 | 2 |
500-516 | 399-415 | 17 |
527-603 | 426-502 | 77 |
610-649 | 509-548 | 40 |
796-802 | 645-651 | 7 |
Кроме того, совпала 1 пара одиночных колонок: 5/6.
Всего совпало колонок: 166.
Таким образом, можно заметить, что из 4 использованных программ выравнивания наиболее близкие результаты выдают tcoffee и muscle; при этом наиболее длинные блоки с одинаково выровненными последовательностями получаются у программ muscle и clustal.
Я сравнивал выравнивания 3 белков из семейства PF00001: бычий родопсин 1hzx, человеческий рецептор хемокинов 2lnl и человеческий бета-2-адренорецептор 2r4r.
Выравнивание программой Expresso.
Выравнивание программой muscle в Jalview.
Результаты сравнения выравниваний:
Число последовательностей: 3
Длина первого выравнивания: 443
Длина второго выравнивания: 470
Процент совпадающих колонок в первом выравнивании: 46.05 %
Процент совпадающих колонок во втором выравнивании: 43.4 %
Число совпадающих блоков: 12
Muscle | Expresso | Длина блока |
61-92 | 57-88 | 32 |
111-153 | 105-147 | 43 |
158-174 | 152-168 | 17 |
222-245 | 250-273 | 24 |
254-257 | 282-285 | 4 |
261-270 | 289-298 | 10 |
282-283 | 310-311 | 2 |
287-309 | 315-337 | 23 |
337-355 | 364-382 | 19 |
358-371 | 385-398 | 14 |
401-407 | 428-434 | 7 |
422-428 | 449-455 | 7 |
Таким образом, видно, что выравнивание, основанное на совмещении структур, отличается от выравнивания, основанного только на последовательностях - они совпадают менее чем на 50%.
Muscle - программа множественного выравнивания аминокислотных и нуклеотидных последовательностей. В отличие от таких программ, как CLUSTALW, она не выравнивает последовательности сразу целиком, а сначала считает количество общих k-меров, на основании которого строит дерево, необходимое для прогрессивного выравнивания. В каждом узле дерева запускается попарное выравнивание - сперва между парами последовательностей, а далее между последовательностями и результатами проведенных выравниваний.
Завершив множественное выравнивание, программа вычисляет вес попарных выравниваний последовательностей, и на основании полученной матрицы строит новое дерево; после этого полученные деревья сравниваются, и, если они не совпадают (что бывает довольно редко и, как правило, имеет место ближе к корню дерева), прогрессивное выравнивание проводится еще раз. Процедура повторяется, пока не получится достаточно стабильный набор деревьев, либо пока не будет достигнуто максимально допустимое число повторений.