Сравнение выравнивания одних и тех же последовательностей
Выбранное семейство (AC Pfam: PF00050). Выравнивания осуществлялись тремя разными программами Muscle, Mafft, Tcoffee. Затем результаты сравнивались между собой с использованием программы написанной
Дмитрием Липченчуком ..
Количество совпадающих колонок и блоков больше у выравниваний Muscle и MAFFT, чем у Muscle и TCoffee. Процент совпадающих колонок в паре Muscle-MAFFT 71.21%. В Muscle-ТCoffee 66.67% (Muscle) и 69.84% (Tcoffee). Cходство алгоритмов выравнивания с помощью программ Muscle и Mafft больше, чем с помощью программ Muscle и TCoffee..
C помощью программы Muscle было проведено множественное выравнивание, полуенное выравнивание сравнили с ручным с использованием программы написанной
Дмитрием Липченчуком ..
В результате был получен список выровненых колонок, обьединеных в блоки ( блок описывается так: (s1,f1)=(s2,f2); здесь s1 номер первой колонки блока, f1 номер последней колонки в выравнивании 1, аналогично в выравнивании 2)
Muscle
Ручное выравнивание
Длина блока
(9,10)
(9,10)
2
(12,13)
(12,13)
2
(25,35)
(28,38)
11
(67,68)
(81,82)
2
Одинаковые колонки, не входящие в блоки: (7,7) = (7,7)
Как видно по таблице выравнивание с помощью Muscle и ручное выравнивание демонстрируют значительное совпадение в консервативных блоках(~30-~75), однако не являются абсолютно идентичными. Так же присутствуют локальные консервативные участки.
Процент колонок первого выравнивания, идентичных колонкам второго, по отношению к длине для ручного выравнивания 21.95%, для Muscle 26.47%. Учитывая, что процент идентичности для выравнивания Muscle больше, но длина самого выравнивания меньше, нельзя точно сказать какое из выравниваний точнее.
MUltiple Sequence Comparison by Log-Expectation (MUSCLE) — это компьютерная программа для множественного выравнивания белковых и нуклеотидных последовательностей.
В его основе лежат три ключевых компонента: оценка расстояний между последовательностями с помощью подсчёта k-меров, выравнивание с использованием функции профиля (оценки логарифмического ожидания) и уточнение с помощью ограниченного разбиения, зависящего от дерева.
MUSCLE является самым быстрым из протестированных методов при работе с большим количеством последовательностей.