Алгоритмы и программы множественного выравнивания

Используемое для сравнения MSA семейство доменов

Я выбрала семейство доменов с параметрами:

Это семейство является частью суперсемейства металло-бета-лактамаз. В нем не так много последовательностей — 45, и они не очень короткие, что крайне удобно для сравнения выравниваний.

Сравнение выравниваний одних и тех же последовательностей тремя разными программами Muscle, Mafft, Tcoffee

Я воспользовалась программой MACHO, которую написали Нагорный Даниил, Гагарочкин Виталий и Масленников Всеволод.

За референсное выравнивание возьмем Tcoffee, как отличающееся от двух других по методы построения (Tcoffee — на базе 3D-структуры, Mafft и Muscle — рафинированные, итеративные).

Tcoffee VS Muscle

Cписок блоков одинаково выровненных колонок:

Список одинаково выровненных колонок, не входящих в блоки:

Таблица 1. Tcoffee VS Muscle
First alignment length (PF16661_Tcoffee.fa) 266
Second alignment length (PF16661_muscle.fa) 274
Percentage of matching columns for the first alignment (PF16661_Tcoffee.fa) 42.48 %
Percentage of matching columns for the second alignment (PF16661_muscle.fa) 41.24 %

Tcoffee VS Mafft

Cписок блоков одинаково выровненных колонок:

Список одинаково выровненных колонок, не входящих в блоки:

Таблица 2. Tcoffee VS Mafft
First alignment length (PF16661_Tcoffee.fa) 266
Second alignment length (PF16661_mafft.fa) 279
Percentage of matching columns for the first alignment (PF16661_Tcoffee.fa) 34.96 %
Percentage of matching columns for the second alignment (PF16661_mafft.fa) 33.33 %

Обсуждение результатов

Из таблицы1 и таблицы2 видно, что сходства между выравниями Tcoffee и Muscle больше, чем между Tcoffee и Mafft. Также одинаково выравненных колонок в паре Tcoffee VS Mafft хоть не намного, но больше, чем в паре Tcoffee VS Muscle. Как видно из списков блоков, в целом, много блоков одинаково выравнены во всех трех выравниваниях. При этом блоков в первой паре выравниваний, которых нет во втором выравниии((72,73)=(74,75) (141,144)=(163,166) (177,178)=(192,193) (218,236)=(231,249) (258,266)=(266,274)), больше, чем тех которые есть во второй паре, но нет в первой((149,153)=(166,170)) (пренебрегаем разницей в несколько позиций и отмечаем только полностью неперкрывающиеся блоки). Mafft работает быстрее чем Muscle, и возможно за счет этого точность получилась ниже.

Проект Jalview

Выравнивание по совмещению структур и сравнение его с выравниванием программой MSA

Из выбранного мной семейства были взяты 3 белка с известной структурой: 3AF5, 2I7X, 6Q55.

Было проведено выравнивание 3D струтур с референсом 3AF5 (рис1). Большая часть альфа спиралей и бета листов совпали, однако у 3AF5 есть достаточно большой фрагмент, который не выравнился ни с какими струтурами двух других белков (если посмотреть на последовательности, окажется, что 3AF5 существенно длиннее двух других белков, чем и обусловлены эти невыровненные альфа спирали и бета листы).
Далее сравниваем 2 выравнивания: полученное экспортом текстового файла из 3D выравнивания и выравнивание T-Coffee. Сравнивали программой MACHO, используемой в предыдущем пункте.

Получили одинаково выравненные блоки:

3D
Рис 1. 3D выравнивание (3AF5 — оранжевый, 2I7X — синий, 6Q55 — зеленый)
Список одинаково выровненных колонок, не входящих в блоки:
Таблица 3. 3D VS Tcoffee
First alignment length (3D.fa) 715
Second alignment length (T-Coffee.fa) 711
Percentage of matching columns for the first alignment (3D.fa) 62.24 %
Percentage of matching columns for the second alignment (T-Coffee.fa) 62.59 %

Как видно из таблицы 3, схожесть данных выравниваний достаточно большая.

Проект Jalview

Краткое описание алгоритма T-coffee [1]

Алгоритм T-Coffee имеет две основные особенности.
Во-первых, он использует различные источники данных. Данные предоставляются в T-Coffee через библиотеку парных выравниваний. Может использоваться библиотека, которая была создана с использованием смеси локальных и глобальных парных выравниваний (рис2).
Второй основной особенностью T-Coffee является метод оптимизации, который используется для нахождения множественного выравнивания, которое лучше всего соответствует парным выравниваниям во входной библиотеке. Используется прогрессивная стратегия, которая похожа на ту, что используется в ClustalW. Но в данном случае мы используем информацию в библиотеке для выполнения прогрессивного выравнивания таким образом, который позволяет нам учитывать выравнивания между всеми парами, пока мы выполняем каждый шаг множественного выравнивания. То есть при добавлении новой последовательности, она выравнивается попарно со всеми уже выровненными. Поэтому, ошибки, которые возникали до этого, могу быть исправлены. Это дает нам прогрессивное выравнивание с характерной для него сокростью и простотой, но с гораздо меньшей тенденцией совершать ошибки (т.к. у нас есть возможность рассматривать информацию из всех последовательностей на каждом шаге выравнивания, а не только тех, которые выравниваются на этом этапе).

T-Coffee
Рис 2. Алгоритм T-Coffee. Основные шаги. (Квадратные блоки — процедуры, круглые — базы данных)

Литература

[1] Notredame, C et al. “T-Coffee: A novel method for fast and accurate multiple sequence alignment.” Journal of molecular biology vol. 302,1 (2000): 205-17. doi:10.1006/jmbi.2000.4042