Сравнение выравнивания одних и тех же последовательностей разными вариантами программ MSA
Сравнение множественных выравниваний нескольких последовательностей домена PF00374 (из выравнивания seed), рассмотренного в практикуме 11, было проведено для программ Muscle, Mafft и Clustal в Jalview "ручным" способом (без использования специализированных программ). Выравнивания Muscle и Mafft совпадают в следующих блоках:
Для Muscle и Clustal список одинаковых блоков другой:
Таким образом, выравнивания Muscle и Mafft различаются на 38 колонок, а Muscle и Clustal - на 52 или 51 (в зависимости от того, по какому выравниванию считать), то есть выравнивания Muscle и Mafft более сходны друг с другом, чем Muscle и Clustal, хотя в целом они достаточно сильно похожи и отличаются только в низкоконсервативных областях. Можно объяснить это тем, что из 3 алгоритмов Clustal был разработан раньше всех и может уступать более современным программам по точности.
Результаты в Jalview доступны по ссылке, также можно скачать множественные выравнивания в fasta-формате: Muscle, Mafft и Clustal.
Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA
Выравнивание по совмещению структур было построено с помощью PDBeFold для 3 белков с доменом PF00374 - гидрогеназы-1 E.coli (код в PDB - 3uqy), NiFe-гидрогеназы Desulufovibrio vulgaris (1wul) и NiFe-гидрогеназы Desulfovibrio desulfuricans (1e3d); его визуализация представлена на рис.1. Можно заметить, что укладка 3 белков очень похожа, и основные элементы вторичной структуры почти полностью накладываются, а различия есть только в положении неструктурированных участков.
Также последовательности были выровнены программой Muscle в Jalview. При сравнении этих выравниваний (способом, аналогичным тому, что применялся в предыдущем задании) выделяются следующие совпадающие блоки (сначала колонки в выравнивании по совмещению структур, затем - в Muscle):
Из сравнения выравниваний можно сделать вывод, что они выявляют одни и те же консервативные участки, которые соответствуют элементам вторичной структуры, в то время как участки, не имеющие определённой укладки, являются неконсервативными и выравниваются плохо. В частности, значительно различаются выравнивания N-концевого участка.
Ссылки: проект Jalview, выравнивание по структуре и выравнивание Muscle в fasta-формате.
Описание программы MSA
Clustal Omega - современный алгоритм множественного выравнивания последовательностей, который был представлен в 2011 году. Как и другие алгоритмы Clustal, он использует метод прогрессивного выравнивания с использованием направляющего дерева. Clustal Omega позволяет составлять выравнивания из очень большого количеста последовательностей за счёт особенно эффективного алгоритма построения направляющего дерева mBed, в котором каждая последовательность заменяется вектором с n координат, каждая из которых представляет собой расстояние до другой последовательности, после чего эти векторы кластеризуются стандартными методами. Ещё одним нововведением в ClustalO стало использование скрытых марковских моделей (HMM), с помощью которых строится итоговое выравнивание. Для некоторых целей, таких как, например, выравнивание последовательностей белковых доменов, можно использовать HMM, полученную на основе уже сущетствующего выравнивания, в качестве "внешнего профиля". Всё это делает ClustalO достаточно точным и быстрым алгоритмом, имеющим преимущество на больших наборах последовательностей.
Список литературы
Sievers, Fabian, et al. "Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega." Molecular systems biology 7 (2011): 539.