Последовательности были взяты изпрактикума 11
Проект Jalview с тремя выравниваниями
Полученные выравнивания в формате FASTA:
1) MUSCLE
2) MAFFT
3) T-coffee
Алгоритм сравнения: для выполнения сравнения выравниваний был использован код на Python, написанный моей однокурсницей, Гончаровой Еленой.
| № | Muscle (номер первой колонки блока, номер последней колонки) |
Mafft (номер первой колонки блока, номер последней колонки) |
Длина блока |
|---|---|---|---|
| 1 | (14,46) | (15,47) | 33 |
| 2 | (468,497) | (531,560) | 30 | 3 | (99,116) | (108,125) | 18 |
| 4 | (274,288) | (292,306) | 15 |
| 5 | (121,134) | (132,145) | 14 |
| 6 | (238,250) | (265,277) | 13 |
| 7 | (547,558) | (625,636) | 12 |
| 8 | (574,585) | (656,667) | 12 |
| 9 | (501,511) | (564,574) | 11 |
| 10 | (603,613) | (685,695) | 11 |
| 11 | (69,77) | (70,78) | 9 |
| 12 | (220,226) | (249,255) | 7 |
| 13 | (370,376) | (402,408) | 7 |
| 14 | (618,624) | (700,706) | 7 |
| 15 | (196,200) | (221,225) | 5 |
| 16 | (205,209) | (231,235) | 5 |
| 17 | (314,318) | (336,340) | 5 |
| 18 | (514,518) | (577,581) | 5 |
| 19 | (57,60) | (58,61) | 4 |
| 20 | (61,64) | (66,69) | 4 |
| 21 | (724,727) | (821,824) | 4 |
| 22 | (137,139) | (148,150) | 3 |
| 23 | (326,328) | (348,350) | 3 |
| 24 | (382,384) | (414,416) | 3 |
| 25 | (400,402) | (442,444) | 3 |
| 26 | (454,456) | (517,519) | 3 |
| 27 | (269,270) | (287,288) | 2 |
| № | Muscle | Mafft | Длина блока |
|---|---|---|---|
| 1 | (1,13) | (1,13) | 13 |
| 2 | (47,56) | (47,56) | 10 |
| 3 | (65,68) | (65,68) | 4 |
| 4 | (78,98) | (78,98) | 21 |
| 5 | (117,120) | (117,120) | 4 |
| 6 | (135,136) | (135,136) | 2 |
| 7 | (140,195) | (140,195) | 56 |
| 8 | (201,204) | (201,204) | 4 |
| 9 | (210,219) | (210,219) | 10 |
| 10 | (227,237) | (227,237) | 11 |
| 11 | (251,268) | (251,268) | 18 |
| 12 | (271,273) | (271,273) | 3 |
| 13 | (289,313) | (289,313) | 25 |
| 14 | (319,325) | (319,325) | 7 |
| 15 | (329,369) | (329,369) | 41 |
| 16 | (377,381) | (377,381) | 5 |
| 17 | (385,399) | (385,399) | 15 |
| 18 | (403,453) | (403,453) | 51 |
| 19 | (457,467) | (457,467) | 11 |
| 20 | (498,500) | (498,500) | 3 |
| 21 | (512,513) | (512,513) | 2 |
| 22 | (519,546) | (519,546) | 28 |
| 23 | (559,573) | (559,573) | 15 |
| 24 | (586,602) | (586,602) | 17 |
| 25 | (614,617) | (614,617) | 4 |
| 26 | (625,723) | (625,723) | 99 |
| 27 | (728,736) | (728,736) | 9 |
Длина выравнивания в MUSCLE: 736
Длина выравнивания в MAFFT: 836
При сравнении выравниваний MUSCLE и MAFFT было обнаружено 27 блоков (253 колонки) совпадающих (одинаково выровненных) колонок. Наличие относительно длинных блоков (максимальная длина — 33 а.к.о.) свидетельствует о высокой степени сходства этих алгоритмов.
При сравнении выравниваний было обнаружено 5 одиночных совпадений вне блоков: (12,13), (97,106), (305,325), (340,363), (699,799).
Совпадение Muscle с Mafft составило 34,4%.
| № | Muscle | T-coffee | Длина блока |
|---|---|---|---|
| 1 | (14,48) | (14,48) | 35 |
| 2 | (569,594) | (615,640) | 26 |
| 3 | (542,560) | (586,604) | 19 |
| 4 | (99,116) | (110,127) | 18 |
| 5 | (596,613) | (642,659) | 18 |
| 6 | (615,630) | (661,676) | 16 |
| 7 | (121,134) | (136,149) | 14 |
| 8 | (370,383) | (402,415) | 14 |
| 9 | (137,148) | (152,163) | 12 |
| 10 | (273,284) | (288,299) | 12 |
| 11 | (501,512) | (545,556) | 12 |
| 12 | (330,340) | (355,365) | 11 |
| 13 | (1,10) | (1,10) | 10 |
| 14 | (205,214) | (222,231) | 10 |
| 15 | (241,250) | (259,268) | 10 |
| 16 | (467,476) | (511,520) | 10 |
| 17 | (192,200) | (208,216) | 9 |
| 18 | (220,228) | (239,247) | 9 |
| 19 | (57,64) | (57,64) | 8 |
| 20 | (479,486) | (523,530) | 8 |
| 21 | (661,668) | (714,721) | 8 |
| 22 | (491,497) | (535,541) | 7 |
| 23 | (693,699) | (750,756) | 7 |
| 24 | (69,74) | (65,70) | 6 |
| 25 | (315,320) | (340,345) | 6 |
| 26 | (233,236) | (252,255) | 4 |
| 27 | (75,77) | (75,77) | 3 |
| 28 | (252,254) | (270,272) | 3 |
| 29 | (392,394) | (426,428) | 3 |
| 30 | (78,79) | (84,85) | 2 |
| 31 | (267,268) | (280,281) | 2 |
| 32 | (291,292) | (306,307) | 2 |
| 33 | (672,673) | (726,727) | 2 |
| № | Muscle | T-coffee | Длина блока |
|---|---|---|---|
| 1 | (1,13) | (1,13) | 13 |
| 2 | (47,56) | (47,56) | 10 |
| 3 | (65,68) | (65,68) | 4 |
| 4 | (78,98) | (78,98) | 21 |
| 5 | (117,120) | (117,120) | 4 |
| 6 | (135,136) | (135,136) | 2 |
| 7 | (140,195) | (140,195) | 56 |
| 8 | (201,204) | (201,204) | 4 |
| 9 | (210,219) | (210,219) | 10 |
| 10 | (227,237) | (227,237) | 11 |
| 11 | (251,268) | (251,268) | 18 |
| 12 | (271,273) | (271,273) | 3 |
| 13 | (289,313) | (289,313) | 25 |
| 14 | (319,325) | (319,325) | 7 |
| 15 | (329,369) | (329,369) | 41 |
| 16 | (377,381) | (377,381) | 5 |
| 17 | (385,399) | (385,399) | 15 |
| 18 | (403,453) | (403,453) | 51 |
| 19 | (457,467) | (457,467) | 11 |
| 20 | (498,500) | (498,500) | 3 |
| 21 | (512,513) | (512,513) | 2 |
| 22 | (519,546) | (519,546) | 28 |
| 23 | (559,573) | (559,573) | 15 |
| 24 | (586,602) | (586,602) | 17 |
| 25 | (614,617) | (614,617) | 4 |
| 26 | (625,723) | (625,723) | 99 |
| 27 | (728,736) | (728,736) | 9 |
Длина выравнивания в MUSCLE: 736
Длина выравнивания в T-coffee: 801
При сравнении выравниваний MUSCLE и T-coffee было обнаружено 33 блока (345 колонок) совпадающих (одинаково выровненных) колонок. Наличие относительно длинных блоков (максимальная длина — 35 а.к.о.) свидетельствует о высокой степени сходства этих алгоритмов.
При сравнении выравниваний было обнаружено 9 одиночных совпадений вне блоков: (12,12), (52,52), (162,180), (230,249), (239,257), (293,309), (295,310), (564,608), (736,801).
Совпадение Muscle с T-coffee составило 46,9%.
Результаты сравнения программ Muscle и Mafft, Muscle и T-coffee (количество совпадающих блоков и колонок, максимальная длина блока и др.) показывают, что для данных последовательностей программы Muscle имеет больший процент сходства с T-coffee
Полученные выравнивания в формате FASTA:
1) MAFFT
2) PDBeFold
| № | MAFFT | PDBeFold | Длина блока |
|---|---|---|---|
| 1 | (122,174) | (112,164) | 53 |
| 2 | (17,65) | (18,66) | 49 |
| 3 | (225,271) | (219,265) | 47 |
| 4 | (468,512) | (462,506) | 45 |
| 5 | (436,465) | (430,459) | 30 |
| 6 | (194,219) | (187,212) | 26 |
| 7 | (412,428) | (406,422) | 17 |
| 8 | (383,396) | (377,390) | 14 |
| 9 | (515,528) | (509,522) | 14 |
| 10 | (311,321) | (304,314) | 11 |
| 11 | (276,285) | (270,279) | 10 |
| 12 | (366,370) | (360,364) | 5 |
| 13 | (374,378) | (368,372) | 5 |
| 14 | (184,187) | (177,180) | 4 |
| 15 | (70,71) | (71,72) | 2 |
| 16 | (107,108) | (96,97) | 2 |
| № | MAFFT | PDBeFold |
|---|---|---|
| 1 | (1,16) | (1,17) |
| 2 | (66,69) | (67,70) |
| 3 | (72,106) | (73,95) |
| 4 | (109,121) | (98,111) |
| 5 | (175,183) | (165,176) |
| 6 | (188,193) | (181,186) |
| 7 | (220,224) | (213,218) |
| 8 | (272,275) | (266,269) |
| 9 | (286,310) | (280,303) |
| 10 | (322,365) | (315,359) |
| 11 | (371,373) | (365,367) |
| 12 | (379,382) | (373,376) |
| 13 | (397,411) | (391,405) |
| 14 | (429,435) | (423,429) |
| 15 | (466,467) | (460,461) |
| 16 | (513,514) | (507,508) |
Рисунок 1. Совмещение 3D-структур белков:
2i3o:A - белый
2qmc:A - оранжевый
3g9k:D - фиолетовый
При сравнении выравниваний было обнаружено 2 одиночных совпадения вне блоков: (1,1), (176,166)
Был проведен анализ выравниваний 3х последовательностей белков белков из домена Gamma-glutamyltranspeptidase (PF01019): 2i3o:A, 2qmc:A, 3g9k:D. При сравнении выравниваний MAFFT и PDBeFold было обнаружено 16 блоков (336 колонок) совпадающих (одинаково выровненных) колонок.
Процент совпадающих колонок в выравнивании MAFFT: 63,6%, в выравнивании PDBeFold - 64,4%, то есть выравнивания имеют высокий процент сходства.
Сравнение выравниваний показало наличие большого процента совпадающих блоков, что говорит о существовании консервативных участков и подтверждается визуальным изображением 3D-структур белков в в PyMol.
T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) - программа для множественного выравнивания последовательностей белков и нуклеиновых кислот.
Принцип работы: программа предварительно обрабатывает набор данных всех парных выравниваний между последовательностями. Это предоставляет нам библиотеку информации о выравнивании, которую можно использовать для построения прогрессивного выравнивания. Промежуточные выравнивания в этом случае основаны не только на последовательностях, которые будут выровнены следующими, но и на том, как все последовательности будут выровнены друг с другом. Эта информация о выравнивании может быть получена из разнородных источников, например, сочетания программ выравнивания и/или наложения структур. То есть программа использует библиотеку расширенных пар, объединяя результаты разных методов (глобальных и локальных). Это позволяет учитывать «транзитивные» связи (если A выровнено с B, а B с C, то A и C тоже должны быть выровнены) [1].
Ключевая особенность: T-Coffee можно охарактеризовать как медленную и точную программу выравнивания [2].
Список литературы:
1. Cédric Notredame, Desmond G Higgins, Jaap Heringa. T-coffee: a novel method for fast and accurate multiple sequence alignment. – 2000. – Т. 302, № 1. – С. 205-217.
2. Paolo Di Tommaso, Sebastien Moretti, Ioannis Xenarios, Miquel Orobitg, Alberto Montanyola, Jia-Ming Chang, Jean-François Taly, Cedric Notredame. T-Coffee: a web server for the multiple sequence alignment of protein and RNA sequences using structural information and homology extension. - 2011. - Т. 39, № 2. – С. W13–W17.