Практикум 12

Резюме: В ходе работы над данным практикумом была написана программа сравнения двух выравниваний, проведено сравнение трех разных программ для множественного выравнивания, построено структурное выравнивание и описана программа Tcoffee.


Алгоритм сравнения разных выравниваний одних и тех же последовательностей

Хоть и с опозданием, но мной была написана программа для сравнения разных выравниваний. Скачать ее можно с помощью команды wget https://kodomo.fbb.msu.ru/~palimpsest/term2/pr12/msa.py или по ссылке. В stdout выдает некоторую информацию о выравниваниях (длину выравнивнивая 1, длину выравнивания 2, координаты блоков - идущих подряд одинаково выровненных колонок, одиночные одинаково выровненные колонки тоже выводятся). А также записывает в out_file пары одинаково выравненных колонок. С опцией -h выдает информацию по запуску и выводу.

Сравните выравнивания одних и тех же последовательностей тремя разными программами

Для выполнения этого пункта я выбрал программы MAFFT, T-Coffee и Clustal (ClustalW + ClustalS), доступные в Jalview. Последовательности были взяты из последнего пункта практикума 9 - это последовательности N5-carboxyaminoimidazole ribonucleotide mutase из разных бактерий. В качестве референсного выравнивания я решил использовать выравнивание, полученное с помощью программы MAFFT, так как согласно презентации она имеет наибольший среди выбранных средний вес сравнения с "идеальным" выравниванием из BAliBASE. Все программы были запущены в Jalview c базовыми параметрами. Сравнение выравнивания проводилось с помощью моей программы (см. предыдущей пункт).

Таблица 1. Характеристики попарного сравнения программ множественного выравнивания
Программы Длина выравнивания MAFFT Доля одинаково выровненных колонок Длина второго выравнивания Доля одинаково выровненных колонок Одиночные колонки Координаты блоков в первом выравнивании Координаты блоков во втором выравнивании
MAFFT и T-Coffee 209 80.9% 204 82.8% (2, 2)
(26, 26)
4-24
28-81
84-133
143-178
203-208
4-24
28-81
84-133
142-177
198-203
MAFFT и ClustalWS 209 72.7% 202 75,2% (23, 23)
(24, 24)
(140, 139)
4-19
27-80
84-133
145-173
4-19
27-80
84-133
144-172

Нетрудно заметить, что выравнивание ClustalWS меньше похоже на выравнивание MAFFT, чем T-Coffee. Если считать MAFFT наиболее близким к "идеальному", то можно заключить, что программа ClustalWS (ClustalW + ClustalS) работает хуже, чем T-Coffee (также имеет меньший средний вес сравнения с референсным выравниванием из BAliBASE, чем T-Coffee). Это может объясняться тем, что ClustalW вышла на 6 лет раньше, чем T-Coffee (1994 и 2000) и, видимо, использует менее совершенные алгоритмы. Существуют участки последовательностей, которые одинаково выравниваются всеми тремя программами. Если обратиться к 9 практикуму, то станет понятно, что эти участки соответствуют наиболее консервативным позициям в последовательностях. Например, блок с координатами 27-80 включает в себя карман связывания данного фермента (очевидно, консервативный участок последовательности).

Выравнивание по совмещению структур

Для выполнения этого пункта я выбрал семейство DnaJ доменов PF00226. Далее я выбрал три белка, содержащие данный домен и имеющие структуры в PDB - 1HDJ (HUMAN HSP40 (HDJ-1), NMR), 1WJZ (J-domain of mouse DnaJ like protein), 1BQZ (J-DOMAIN OF MOLECULAR CHAPERONE DNAJ ESCHERICHIA COLI). Далее было проведено попарное выравнивание структур (рис.1, белок E. coli использовался в качестве референсного). По алгоритму, описанному в подсказках было получено множественное выравнивание на основе совмещения структур. Последовательности тех же белков были выравнены с помощью программы Mafft в Jalview. При сравнении этих двух выравниваний в них попросту не оказалось одинаково выровненных колонок. Думаю, это объясняется очень низкой консервтивностью этих последовательностей и далеким систематическим положением организмов, которым принадлежат эти белки.

Табл.2 Характеристики структурного выравнивания
Рис.1 Струтурное выравнивание

Описание программы T-Coffee

T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) - это метод множественного выравнивания последовательностей, который объединяет различные подходы и методы для построения выравнивания. Сначала строятся парные выравнивания между всеми парами последовательностей (может использоваться и алгоритм Нидлмана-Вунша и Смита-Вотермана) - получается матрица расстояний между последовательностями, на основе которой строится направляющее дерево. Далее T-Coffee применяет прогрессивный метод выравнивания - парные выравнивания объединяются в более крупные группы на основе направляющего дерева. Это делается путем выравнивания каждой пары или группы с уже объединенными группами последовательностей, что позволяет строить постепенно увеличивающееся множественное выравнивание. Затем T-Coffee проводит оценку полученного выравнивания, коррекцию гэпов и какие-то еще улучшения финального выравнивания, которые я не очень понимаю.