Практикум 13

Сравнение выравниваний последовательностей пирофосфатазы dITP/XTP, полученных с помощью программ Tcoffee, Mafft, Muscle (with defaults)

Последовательности относятся к домену Bacteria. Задание выполнено с помощью программы для сравнения выравниваний.
Tcoffee
Mafft
Muscle
Tcoffee и Mafft
Табл.1 Tcoffee и Mafft
Block Alignment 1 (Tcoffee) Alignment 2 (Mafft)
1 (13,28) (13,28)
2 (55,75) (58,78)
3 (81,107) (84,110)
4 (123,133) (122,132)
5 (140,141) (139,140)
6 (145,156) (144,155)
7 (202,215) (198,211)
8 (222,231) (218,227)
9 (250,269) (246,265)
Табл.2 Список одинаково выровненных колонок, не входящих в блоки (с учётом гэпов / длина=1)
Block Alignment 1 (Tcoffee) Alignment 2 (Mafft)
1 (4,4) (4,4)
2 (116,116) (119,119)
3 (143,143) (142,142)
4 (165,169) (161,165)
5 (173,190) (169,186)
6 (198,199) (194,195)
7 (236,236) (232,232)
8 (238,245) (234,241)
Выравнивания отличаются незначительно. Одинаково выровненные колонки могут иметь различное положение относительно блоков (одни могут примыкать к левому блоку, другие к правому или находиться между блоками). Нельзя одназначно сказать, какое из выравниваний лучше, важно, что в каждом из них правильно выделены консервативные блоки.
Tcoffee и Muscle
Табл.3 Tcoffee и Muscle
Block Alignment 1 (Tcoffee) Alignment 2 (Muscle)
1 (12,29) (12,29)
2 (54,75) (54,75)
3 (81,107) (81,107)
4 (123,134) (118,129)
5 (140,141) (135,136)
6 (148,156) (143,151)
7 (207,215) (199,207)
8 (221,231) (213,223)
9 (249,278) (241,270)
Табл.4 Список одинаково выровненных колонок, не входящих в блоки (с учётом гэпов / длина=1)
Block Alignment 1 (Tcoffee) Alignment 2 (Muscle)
1 (32,32) (32,32)
2 (173,200) (165,192)
3 (234,234) (226,226)
4 (237,243) (229,235)
5 (246,246) (238,238)
6 (286,286) (277,277)
При внимательном изучении выдачи VerAlign можно заметить, что при выравнивании с использованием Tcoffee длина консервативных блоков больше на несколько колонок по сравнению с выравниванием Muscle. Также во втором случае (Tcoffee и Muscle) длина блоков оказалось немного больше, чем в случаем Tcoffee и Mafft, а список одинаково выровненных колонок, не входящих в блоки, наоборот меньше. Таким образом, можно предположить, что выравнивания Tcoffee и Muscle более схожи между собой, чем Tcoffee и Mafft.
В Tcoffee длина консервативных блоков несколько больше
Выравнивание по совмещению структур и сравнение его с выравниванием MSA
В Pfam были выбраны белки, относящиеся к Ubiquitin family.
Табл.5 Structures и Tcoffee
Block Alignment 1 (Structures) Alignment 2 (Tcoffee)
1 (1,18) (1,18)
2 (23,36) (21,34)
3 (48,54) (45,51)
4 (59,76) (55,72)
При выравнивании с помощью Tcoffee отсутствуют гэпы, и поэтому консервативных участков несколько больше. Из-за гэпов в Structures произошёл сдвиг аминокислот, который изменил состав блоков. В данном случае выравнивание Tcoffee лучше.
В Structures есть гэпы
Совмещение трех структур

Structures и Tcoffee
Описание T-coffee
T-coffee (Tree based Consistency Objective Function For AlignmEnt Evaluation) программа для выравниваний ДНК, РНК и белков, обладающая высокой точностью и подходит для очень больших наборов данных. Она также может объединять информацию о последовательностях со структурной информацией о белках (3D-Coffee/Expresso), информацией о профилях (PSI-Coffee - расширенный режим гомологии, подходящий для отдалённых гомологов) или вторичных структурах РНК (R-Coffee). Одной из особенностей T-Coffee является его способность объединять несколько типов информации, таких как первичные структуры, вторичные структуры РНК и третичная структура белков. Он значительно медленнее, чем самые быстрые доступные методы, такие как Kalign, MAFFT или MUSCLE, но часто более точен для отдаленно связанных последовательностей. M-Coffee запускает несколько быстрых выравнивателей (по умолчанию Kalign, MAFFT и MUSCLE) для всего набора данных и объединяет их результаты в одно окончательное выравнивание. Expresso — это наиболее точный режим T-Coffee. Expresso пытается определить структуру для каждой последовательности и затем применяет структурный выравниватель. Pro-Coffee предназначен для выравнивания некодирующих участков, содержащих сайты связывания факторов транскрипции.
Использованные материалы:
  • Nature Protocols
  • Weizmann
  • T-Coffee: A Novel Method for Fast and Accurate Multiple Sequence Alignment