Практикум 12

Задания 1-2. Сравнение выравнивания одних и тех же последовательностей тремя разными программами

Последовательности были взяты изпрактикума 11

Проект Jalview с тремя выравниваниями

Полученные выравнивания в формате FASTA:

1) MUSCLE

2) MAFFT

3) T-coffee

Алгоритм сравнения: для выполнения сравнения выравниваний был использован код на Python, написанный моей однокурсницей, Гончаровой Еленой.

Таблица 1. MUSCLE и MAFFT

совпадающие участки

Muscle
(номер первой колонки блока, номер последней колонки)
Mafft
(номер первой колонки блока, номер последней колонки)
Длина блока
1 (14,46) (15,47) 33
2 (468,497) (531,560) 30
3 (99,116) (108,125) 18
4 (274,288) (292,306) 15
5 (121,134) (132,145) 14
6 (238,250) (265,277) 13
7 (547,558) (625,636) 12
8 (574,585) (656,667) 12
9 (501,511) (564,574) 11
10 (603,613) (685,695) 11
11 (69,77) (70,78) 9
12 (220,226) (249,255) 7
13 (370,376) (402,408) 7
14 (618,624) (700,706) 7
15 (196,200) (221,225) 5
16 (205,209) (231,235) 5
17 (314,318) (336,340) 5
18 (514,518) (577,581) 5
19 (57,60) (58,61) 4
20 (61,64) (66,69) 4
21 (724,727) (821,824) 4
22 (137,139) (148,150) 3
23 (326,328) (348,350) 3
24 (382,384) (414,416) 3
25 (400,402) (442,444) 3
26 (454,456) (517,519) 3
27 (269,270) (287,288) 2

Таблица 2. MUSCLE и MAFFT

несовпадающие участки

Muscle Mafft Длина блока
1 (1,13) (1,13) 13
2 (47,56) (47,56) 10
3 (65,68) (65,68) 4
4 (78,98) (78,98) 21
5 (117,120) (117,120) 4
6 (135,136) (135,136) 2
7 (140,195) (140,195) 56
8 (201,204) (201,204) 4
9 (210,219) (210,219) 10
10 (227,237) (227,237) 11
11 (251,268) (251,268) 18
12 (271,273) (271,273) 3
13 (289,313) (289,313) 25
14 (319,325) (319,325) 7
15 (329,369) (329,369) 41
16 (377,381) (377,381) 5
17 (385,399) (385,399) 15
18 (403,453) (403,453) 51
19 (457,467) (457,467) 11
20 (498,500) (498,500) 3
21 (512,513) (512,513) 2
22 (519,546) (519,546) 28
23 (559,573) (559,573) 15
24 (586,602) (586,602) 17
25 (614,617) (614,617) 4
26 (625,723) (625,723) 99
27 (728,736) (728,736) 9

Длина выравнивания в MUSCLE: 736

Длина выравнивания в MAFFT: 836

При сравнении выравниваний MUSCLE и MAFFT было обнаружено 27 блоков (253 колонки) совпадающих (одинаково выровненных) колонок. Наличие относительно длинных блоков (максимальная длина — 33 а.к.о.) свидетельствует о высокой степени сходства этих алгоритмов.

При сравнении выравниваний было обнаружено 5 одиночных совпадений вне блоков: (12,13), (97,106), (305,325), (340,363), (699,799).

Совпадение Muscle с Mafft составило 34,4%.

Таблица 3. MUSCLE и T-coffee

совпадающие участки

Muscle T-coffee Длина блока
1 (14,48) (14,48) 35
2 (569,594) (615,640) 26
3 (542,560) (586,604) 19
4 (99,116) (110,127) 18
5 (596,613) (642,659) 18
6 (615,630) (661,676) 16
7 (121,134) (136,149) 14
8 (370,383) (402,415) 14
9 (137,148) (152,163) 12
10 (273,284) (288,299) 12
11 (501,512) (545,556) 12
12 (330,340) (355,365) 11
13 (1,10) (1,10) 10
14 (205,214) (222,231) 10
15 (241,250) (259,268) 10
16 (467,476) (511,520) 10
17 (192,200) (208,216) 9
18 (220,228) (239,247) 9
19 (57,64) (57,64) 8
20 (479,486) (523,530) 8
21 (661,668) (714,721) 8
22 (491,497) (535,541) 7
23 (693,699) (750,756) 7
24 (69,74) (65,70) 6
25 (315,320) (340,345) 6
26 (233,236) (252,255) 4
27 (75,77) (75,77) 3
28 (252,254) (270,272) 3
29 (392,394) (426,428) 3
30 (78,79) (84,85) 2
31 (267,268) (280,281) 2
32 (291,292) (306,307) 2
33 (672,673) (726,727) 2

Таблица 4. MUSCLE и T-coffee

несовпадающие участки

Muscle T-coffee Длина блока
1 (1,13) (1,13) 13
2 (47,56) (47,56) 10
3 (65,68) (65,68) 4
4 (78,98) (78,98) 21
5 (117,120) (117,120) 4
6 (135,136) (135,136) 2
7 (140,195) (140,195) 56
8 (201,204) (201,204) 4
9 (210,219) (210,219) 10
10 (227,237) (227,237) 11
11 (251,268) (251,268) 18
12 (271,273) (271,273) 3
13 (289,313) (289,313) 25
14 (319,325) (319,325) 7
15 (329,369) (329,369) 41
16 (377,381) (377,381) 5
17 (385,399) (385,399) 15
18 (403,453) (403,453) 51
19 (457,467) (457,467) 11
20 (498,500) (498,500) 3
21 (512,513) (512,513) 2
22 (519,546) (519,546) 28
23 (559,573) (559,573) 15
24 (586,602) (586,602) 17
25 (614,617) (614,617) 4
26 (625,723) (625,723) 99
27 (728,736) (728,736) 9

Длина выравнивания в MUSCLE: 736

Длина выравнивания в T-coffee: 801

При сравнении выравниваний MUSCLE и T-coffee было обнаружено 33 блока (345 колонок) совпадающих (одинаково выровненных) колонок. Наличие относительно длинных блоков (максимальная длина — 35 а.к.о.) свидетельствует о высокой степени сходства этих алгоритмов.

При сравнении выравниваний было обнаружено 9 одиночных совпадений вне блоков: (12,12), (52,52), (162,180), (230,249), (239,257), (293,309), (295,310), (564,608), (736,801).

Совпадение Muscle с T-coffee составило 46,9%.

Результаты сравнения программ Muscle и Mafft, Muscle и T-coffee (количество совпадающих блоков и колонок, максимальная длина блока и др.) показывают, что для данных последовательностей программы Muscle имеет больший процент сходства с T-coffee

Задание 3. Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA

Проект Jalview с выравниваниями Mafft и PDBeFold

Полученные выравнивания в формате FASTA:

1) MAFFT

2) PDBeFold

Таблица 5. MAFFT и PDBeFold

совпадающие участки

MAFFT PDBeFold Длина блока
1 (122,174) (112,164) 53
2 (17,65) (18,66) 49
3 (225,271) (219,265) 47
4 (468,512) (462,506) 45
5 (436,465) (430,459) 30
6 (194,219) (187,212) 26
7 (412,428) (406,422) 17
8 (383,396) (377,390) 14
9 (515,528) (509,522) 14
10 (311,321) (304,314) 11
11 (276,285) (270,279) 10
12 (366,370) (360,364) 5
13 (374,378) (368,372) 5
14 (184,187) (177,180) 4
15 (70,71) (71,72) 2
16 (107,108) (96,97) 2

Таблица 6. MAFFT и PDBeFold

несовпадающие участки

MAFFT PDBeFold
1 (1,16) (1,17)
2 (66,69) (67,70)
3 (72,106) (73,95)
4 (109,121) (98,111)
5 (175,183) (165,176)
6 (188,193) (181,186)
7 (220,224) (213,218)
8 (272,275) (266,269)
9 (286,310) (280,303)
10 (322,365) (315,359)
11 (371,373) (365,367)
12 (379,382) (373,376)
13 (397,411) (391,405)
14 (429,435) (423,429)
15 (466,467) (460,461)
16 (513,514) (507,508)
Совмещение 3D-структур 3 белков

Рисунок 1. Совмещение 3D-структур белков:

2i3o:A - белый

2qmc:A - оранжевый

3g9k:D - фиолетовый



При сравнении выравниваний было обнаружено 2 одиночных совпадения вне блоков: (1,1), (176,166)

Был проведен анализ выравниваний 3х последовательностей белков белков из домена Gamma-glutamyltranspeptidase (PF01019): 2i3o:A, 2qmc:A, 3g9k:D. При сравнении выравниваний MAFFT и PDBeFold было обнаружено 16 блоков (336 колонок) совпадающих (одинаково выровненных) колонок.

Процент совпадающих колонок в выравнивании MAFFT: 63,6%, в выравнивании PDBeFold - 64,4%, то есть выравнивания имеют высокий процент сходства.

Сравнение выравниваний показало наличие большого процента совпадающих блоков, что говорит о существовании консервативных участков и подтверждается визуальным изображением 3D-структур белков в в PyMol.

Задание 4. Программа MSA - T-coffee

T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) - программа для множественного выравнивания последовательностей белков и нуклеиновых кислот.

Принцип работы: программа предварительно обрабатывает набор данных всех парных выравниваний между последовательностями. Это предоставляет нам библиотеку информации о выравнивании, которую можно использовать для построения прогрессивного выравнивания. Промежуточные выравнивания в этом случае основаны не только на последовательностях, которые будут выровнены следующими, но и на том, как все последовательности будут выровнены друг с другом. Эта информация о выравнивании может быть получена из разнородных источников, например, сочетания программ выравнивания и/или наложения структур. То есть программа использует библиотеку расширенных пар, объединяя результаты разных методов (глобальных и локальных). Это позволяет учитывать «транзитивные» связи (если A выровнено с B, а B с C, то A и C тоже должны быть выровнены) [1].

Ключевая особенность: T-Coffee можно охарактеризовать как медленную и точную программу выравнивания [2].

Список литературы:

1. Cédric Notredame, Desmond G Higgins, Jaap Heringa. T-coffee: a novel method for fast and accurate multiple sequence alignment. – 2000. – Т. 302, № 1. – С. 205-217.

2. Paolo Di Tommaso, Sebastien Moretti, Ioannis Xenarios, Miquel Orobitg, Alberto Montanyola, Jia-Ming Chang, Jean-François Taly, Cedric Notredame. T-Coffee: a web server for the multiple sequence alignment of protein and RNA sequences using structural information and homology extension. - 2011. - Т. 39, № 2. – С. W13–W17.