Сравнение выравнивания одних и тех же последовательностей тремя разными
программами A,B,C
Множественное выравнивание было построено при помощи программ TCoffee,
MUSCLE и MAFFT для пероксидазы следующих организмов: Halobacterium sp.
CBA1126, Halobacterium hubeiense, Halobacterium salinarum, Halobacterium
bonnevillei, Halanaeroarchaeum sulfurireducens.
Следующая таблица является результатом сравнения двух выравниваний с
помощью программы, написанной
Антоном Куликовым(MSA.ipynb)
Программа 1
Программа 2
Длина и процент выровненных колонок от общей длины, 1 программа
Длина и процент выровненных колонок от общей длины, 2 программа
TCOFFEE, по сравнению с другими программами, выравнила по метионину на
первой позиции, нежели MUSCLE и MAFFT, которые выдали похожие результаты
выравниваний (сверху вниз TCOFFEE, MUSCLE и MAFFT соответственно).
Впрочем, это ,скорее всего, связано с тем, что MUSCLE и MAFFT основаны на
прогрессивном выравнивании и итеративных методах, когда TCOFFEE дополнен
ещё и стратегией согласованности (Consistency-based alignment). Предполагаю, что выравнивание TCOFFEE более эволюционно верно.
В целом, оба сравнения показали достаточно высокий результат сходства,
более 96%. Ссылка на проект jalview тут
Выравнивание по совмещению структур и сравнение с выравниваем MSA
Я выбрал 3 белка с доменом PF00167 (Fibroblast growth factor): фактор роста фибробластов из организмов Bos taurus (PDB ID: 1BAR), Notophthalmus viridescens (PDB ID: 1FMM), Rattus norvegicus (PDB ID: 1QQK).
Сравнивал последовательности 1FMM с 1BAR и 1FMM с 1QQK, добавил недостающий гэп и воспользовался той же программой, что и в первой части задания. Ссылка на выравнивание тут. Левое окно - выравнивание в PDB, правое - ручное(sequence).
Программа 1
Программа 2
Длина и процент выровненных колонок от общей длины, 1 программа
Длина и процент выровненных колонок от общей длины, 2 программа
Блоки
TCOFFEE
Ручное выравнивание
133,0.75%
143,0.70%
1
Сравнение получилось довольно странным. Однако на всех остальных примерах программа работала, и при использовании другой программы результат схожий. Сравнение вышло совсем неудачным.
Если просмотреть выравнивания глазами, то можно отметить следующие блоки: 15-18=7-9,24-30=16-22,53-61=45-53,66-75=58-67,82-100=74-92,118-131=108-121
T-Coffee — это программа для множественного выравнивания последовательностей, разработанная Notredame, Higgins и Heringa в 2000 г. (J. Mol. Biol. 302:205–217). Она сочетает «прогрессивный» подход с оценкой на основе согласованности (consistency-based scoring), за счёт чего достигается более высокая точность, чем у других методов.
Перед началом прогрессивного выравнивания T-Coffee строит «первичную библиотеку» из парных выравниваний для всех пар входных последовательностей. Для каждой пары генерируется одно глобальное выравнивание (с помощью ClustalW) и несколько локальных (до 10 лучших с помощью Lalign). Каждое сопряжение «остаток_i ↔ остаток_j» получает вес, отражающий надёжность этого выравнивания.
При построении итогового множественного выравнивания (МSА) T-Coffee идёт по guide tree, как и классические методы, но на этапе динамического программирования учитывает, насколько выбранное выравнивание каждой пары позиций согласуется с другими записями из библиотеки. Например, если A_i выровнен с C_k и C_k выровнен с B_j в библиотеке, то совпадение A_i ↔ B_j придаётся повышенный вес. За счёт этого метод избегает «жадных» ошибок классических прогрессивных алгоритмов, когда локально оптимальное решение на раннем этапе становится помехой при добавлении более удалённых последовательностей.
Источники:
1. Notredame C., Higgins D.G., Heringa J. T-Coffee: a novel method for fast and accurate multiple sequence alignment // Journal of Molecular Biology. 2000. Vol. 302, no. 1. P. 205–217. DOI: 10.1006/jmbi.2000.3064.
2. Di Tommaso P., Bessonnet S., Moretti S., Notredame C. T-Coffee: core software and web server based on a novel fast and accurate method for multiple sequence alignment // Methods in Molecular Biology. 2011. Vol. 687. P. 69–84. DOI: 10.1007/978-1-60761-757-6_5.
3. Chang J.-M., Di Tommaso P., Notredame C. T-Coffee: a web server for multiple sequence alignment of protein and RNA sequences using structural information and homology extension // Nucleic Acids Research. 2014. Vol. 42, W560–W564. DOI: 10.1093/nar/gku364.
4. T-Coffee: Tree-based Consistency Objective Function for Alignment Evaluation [Электронный ресурс]. — Режим доступа: https://tcoffee.org/