Учебный сайт Ивана Федорова


Практикум 12

2

В этом практикуме я сравнивал выравнивания последовательностей белков из семейства PF00001 программами tcoffee, muscle, mafft и clustal. Я пользовался программой, написанной Славой Масленниковым.

Ссылка на выравнивания.

Всего было 63 последовательности белков, длина выравнивания в программе tcoffee - 984, в muscle - 724, в mafft - 802, в clustal - 651.

Сравнение выравниваний программ tcoffee и muscle:

Процент совпадающих колонок в первом выравнивании: 22.97 %.

Процент совпадающих колонок во втором выравнивании: 31.22 %.

Число совпадающих блоков: 12.

TcoffeeMuscleДлина блока
30-4426-4015
57-6159-635
95-11391-10919
141-149137-1459
488-512413-43725
522-598444-52077
615-627543-55513
632-642560-57011
676-678583-5853
865-890605-63026
927-932669-6746
971-984711-72414

Кроме того, совпали 3 пары одиночных колонок: 7/7, 80/82, 132/129.

Всего совпало колонок: 226.

Сравнение tcoffee и mafft:

Процент совпадающих колонок в первом выравнивании: 20.02 %.

Процент совпадающих колонок во втором выравнивании: 24.56 %.

Число совпадающих блоков: 16.

TcoffeeMafftДлина блока
30-4229-4113
57-5857-582
110-113111-1144
290-291281-2822
357-387327-35731
390-405360-37516
444-447411-4144
468-477435-44410
493-496460-4634
535-551500-51617
562-598527-56337
615-627580-59213
632-638597-6037
676-678620-6223
865-887642-66423
978-984796-8027

Кроме того, совпали 4 пары одиночных колонок: 26/27, 44/43, 106/107, 280/267.

Всего совпало колонок: 197.

Сравнение tcoffee и clustal:

Процент совпадающих колонок в первом выравнивании: 18.5 %.

Процент совпадающих колонок во втором выравнивании: 27.96 %.

Число совпадающих блоков: 9.

TcoffeeClustalДлина блока
31-4225-3612
87-11969-10133
279-291182-19413
530-598394-46269
615-627479-49113
632-642496-50611
676-678519-5213
865-872541-5488
966-984633-65119

Кроме того, совпала 1 пара одиночных колонок: 44/38.

Всего совпало колонок: 182.

Сравнение muscle и mafft:

Процент совпадающих колонок в первом выравнивании: 24.31 %.

Процент совпадающих колонок во втором выравнивании: 21.95 %.

Число совпадающих блоков: 9.

MuscleMafftДлина блока
25-3828-4114
58-6056-583
106-110111-1155
418-421460-4634
457-473500-51617
484-527527-57044
542-566579-60325
573-627610-66455
718-724796-8027

Кроме того, совпали 2 пары одиночных колонок: 40/43, 102/107.

Всего совпало колонок: 176.

Сравнение muscle и clustal:

Процент совпадающих колонок в первом выравнивании: 26.52 %.

Процент совпадающих колонок во втором выравнивании: 29.49 %.

Число совпадающих блоков: 5.

MuscleClustalДлина блока
27-3825-3612
91-10977-9519
452-527394-46976
542-612478-54871
711-724638-65114

Всего совпало колонок: 192.

Сравнение mafft и clustal:

Процент совпадающих колонок в первом выравнивании: 20.7 %.

Процент совпадающих колонок во втором выравнивании: 25.5 %.

Число совпадающих блоков: 8.

MafftClustalДлина блока
30-4325-3814
111-11492-954
266-269178-1814
281-282193-1942
500-516399-41517
527-603426-50277
610-649509-54840
796-802645-6517

Кроме того, совпала 1 пара одиночных колонок: 5/6.

Всего совпало колонок: 166.

Таким образом, можно заметить, что из 4 использованных программ выравнивания наиболее близкие результаты выдают tcoffee и muscle; при этом наиболее длинные блоки с одинаково выровненными последовательностями получаются у программ muscle и clustal.

3

Я сравнивал выравнивания 3 белков из семейства PF00001: бычий родопсин 1hzx, человеческий рецептор хемокинов 2lnl и человеческий бета-2-адренорецептор 2r4r.

Выравнивание программой Expresso.

Выравнивание программой muscle в Jalview.

Результаты сравнения выравниваний:

Число последовательностей: 3

Длина первого выравнивания: 443

Длина второго выравнивания: 470

Процент совпадающих колонок в первом выравнивании: 46.05 %

Процент совпадающих колонок во втором выравнивании: 43.4 %

Число совпадающих блоков: 12

MuscleExpressoДлина блока
61-9257-8832
111-153105-14743
158-174152-16817
222-245250-27324
254-257282-2854
261-270289-29810
282-283310-3112
287-309315-33723
337-355364-38219
358-371385-39814
401-407428-4347
422-428449-4557

Таким образом, видно, что выравнивание, основанное на совмещении структур, отличается от выравнивания, основанного только на последовательностях - они совпадают менее чем на 50%.

4

Muscle - программа множественного выравнивания аминокислотных и нуклеотидных последовательностей. В отличие от таких программ, как CLUSTALW, она не выравнивает последовательности сразу целиком, а сначала считает количество общих k-меров, на основании которого строит дерево, необходимое для прогрессивного выравнивания. В каждом узле дерева запускается попарное выравнивание - сперва между парами последовательностей, а далее между последовательностями и результатами проведенных выравниваний.

Завершив множественное выравнивание, программа вычисляет вес попарных выравниваний последовательностей, и на основании полученной матрицы строит новое дерево; после этого полученные деревья сравниваются, и, если они не совпадают (что бывает довольно редко и, как правило, имеет место ближе к корню дерева), прогрессивное выравнивание проводится еще раз. Процедура повторяется, пока не получится достаточно стабильный набор деревьев, либо пока не будет достигнуто максимально допустимое число повторений.