Практикум 12
Резюме: В ходе работы над данным практикумом была написана программа сравнения двух выравниваний, проведено сравнение трех разных программ для множественного выравнивания, построено структурное выравнивание и описана программа Tcoffee.
Алгоритм сравнения разных выравниваний одних и тех же последовательностей
Хоть и с опозданием, но мной была написана программа для сравнения разных выравниваний. Скачать ее можно с помощью команды wget https://kodomo.fbb.msu.ru/~palimpsest/term2/pr12/msa.py или по ссылке. В stdout выдает некоторую информацию о выравниваниях (длину выравнивнивая 1, длину выравнивания 2, координаты блоков - идущих подряд одинаково выровненных колонок, одиночные одинаково выровненные колонки тоже выводятся). А также записывает в out_file пары одинаково выравненных колонок. С опцией -h выдает информацию по запуску и выводу.
Сравните выравнивания одних и тех же последовательностей тремя разными программами
Для выполнения этого пункта я выбрал программы MAFFT, T-Coffee и Clustal (ClustalW + ClustalS), доступные в Jalview. Последовательности были взяты из последнего пункта практикума 9 - это последовательности N5-carboxyaminoimidazole ribonucleotide mutase из разных бактерий. В качестве референсного выравнивания я решил использовать выравнивание, полученное с помощью программы MAFFT, так как согласно презентации она имеет наибольший среди выбранных средний вес сравнения с "идеальным" выравниванием из BAliBASE. Все программы были запущены в Jalview c базовыми параметрами. Сравнение выравнивания проводилось с помощью моей программы (см. предыдущей пункт).
Таблица 1. Характеристики попарного сравнения программ множественного выравнивания
Программы | Длина выравнивания MAFFT | Доля одинаково выровненных колонок | Длина второго выравнивания | Доля одинаково выровненных колонок | Одиночные колонки | Координаты блоков в первом выравнивании | Координаты блоков во втором выравнивании |
---|---|---|---|---|---|---|---|
MAFFT и T-Coffee | 209 | 80.9% | 204 | 82.8% | (2, 2) (26, 26) |
4-24 28-81 84-133 143-178 203-208 |
4-24 28-81 84-133 142-177 198-203 |
MAFFT и ClustalWS | 209 | 72.7% | 202 | 75,2% | (23, 23) (24, 24) (140, 139) |
4-19 27-80 84-133 145-173 |
4-19 27-80 84-133 144-172 |
Нетрудно заметить, что выравнивание ClustalWS меньше похоже на выравнивание MAFFT, чем T-Coffee. Если считать MAFFT наиболее близким к "идеальному", то можно заключить, что программа ClustalWS (ClustalW + ClustalS) работает хуже, чем T-Coffee (также имеет меньший средний вес сравнения с референсным выравниванием из BAliBASE, чем T-Coffee). Это может объясняться тем, что ClustalW вышла на 6 лет раньше, чем T-Coffee (1994 и 2000) и, видимо, использует менее совершенные алгоритмы. Существуют участки последовательностей, которые одинаково выравниваются всеми тремя программами. Если обратиться к 9 практикуму, то станет понятно, что эти участки соответствуют наиболее консервативным позициям в последовательностях. Например, блок с координатами 27-80 включает в себя карман связывания данного фермента (очевидно, консервативный участок последовательности).
Выравнивание по совмещению структур
Для выполнения этого пункта я выбрал семейство DnaJ доменов PF00226. Далее я выбрал три белка, содержащие данный домен и имеющие структуры в PDB - 1HDJ (HUMAN HSP40 (HDJ-1), NMR), 1WJZ (J-domain of mouse DnaJ like protein), 1BQZ (J-DOMAIN OF MOLECULAR CHAPERONE DNAJ ESCHERICHIA COLI). Далее было проведено попарное выравнивание структур (рис.1, белок E. coli использовался в качестве референсного). По алгоритму, описанному в подсказках было получено множественное выравнивание на основе совмещения структур. Последовательности тех же белков были выравнены с помощью программы Mafft в Jalview. При сравнении этих двух выравниваний в них попросту не оказалось одинаково выровненных колонок. Думаю, это объясняется очень низкой консервтивностью этих последовательностей и далеким систематическим положением организмов, которым принадлежат эти белки.
Описание программы T-Coffee
T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) - это метод множественного выравнивания последовательностей, который объединяет различные подходы и методы для построения выравнивания. Сначала строятся парные выравнивания между всеми парами последовательностей (может использоваться и алгоритм Нидлмана-Вунша и Смита-Вотермана) - получается матрица расстояний между последовательностями, на основе которой строится направляющее дерево. Далее T-Coffee применяет прогрессивный метод выравнивания - парные выравнивания объединяются в более крупные группы на основе направляющего дерева. Это делается путем выравнивания каждой пары или группы с уже объединенными группами последовательностей, что позволяет строить постепенно увеличивающееся множественное выравнивание. Затем T-Coffee проводит оценку полученного выравнивания, коррекцию гэпов и какие-то еще улучшения финального выравнивания, которые я не очень понимаю.