Практикум 12. Алгоритмы и программы множественного выравнивания

СРАВНЕНИЕ ВЫРАВНЕНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ТРЕМЯ РАЗНЫМИ ПРОГРАММАМИ MSA

Для выполнения задания были выбраны последовательности семейства белковых доменов Ribosome inactivating protein (PF00161). Для выравнивания использовались программы MSA Muscle, Mafft и T-Coffee, в качестве референсного выравнивания было выбрано выравнивание Muscle. Для сравнения выравниваний использовался код моей однокурсницы Елены Гончаровой.

Ссылки на выравнивания (формат fasta):

Muscle;

Mafft;

T-Coffee.

Ссылка на проект с выравниваниями Jalview

1) СРАВНЕНИЕ MUSCLE И MAFFT

Таблица 1. Блоки одинаково выровненных колонок в выравниваниях Muscle и Mafft.

Muscle Mafft Длина
(76,86) (84,94) 11
(144,158) (155,169) 15
(212,218) (232,238) 7
(294,298) (319,323) 5
(304,314) (329,339) 11
(346,353) (329,339) 11

Длина выравнивания Muscle: 749;

Длина выравнивания Mafft: 834;

Всего совпадающих колонок: 59 (7.9% от Muscle, 7.1% от Mafft);

Всего блоков: 6;

Одиночные совпадающие колонки: (637,678), (639,680).

2) СРАВНЕНИЕ MUSCLE И T-COFFEE

Таблица 2. Блоки одинаково выровненных колонок в выравниваниях Muscle и T-Coffee.

Muscle T-Coffee Длина
(75,87) (74,86) 13
(143,160) (150,167) 18
(278,279) (304,305) 2
(294,298) (323,327) 5
(304,314) (333,343) 11
(346,354) (377,385) 9
(463,473) (493,503) 11
(621,625) (672,676) 5
(637,639) (707,709) 3

Длина выравнивания Muscle: 749;

Длина выравнивания T-Coffee: 870;

Всего совпадающих колонок: 78 (10.4% от Muscle, 9.0% от T-Coffee);

Всего блоков: 9;

Одиночные совпадающие колонки: (619,670).

Выравнивание T-Coffee немного больше похоже на выравнивание Muscle: у этих выравниваний больше совпадающих блоков и колонок в целом, чем у Muscle и Mafft, то есть, в выравнивании T-Coffeе больше участков, идентичных Muscle. Также, в обоих случаях совпадения есть в первой половине выравнивания, однако у выравниваний Muscle и T-Coffee совпадающие блоки присутствуют и в конце последовательностей. И в Mafft, и в T-Coffee, по сравнению с Muscle, больше гэпов, поэтому они длиннее.

СРАВНЕНИЕ ВЫРАВНИВАНИЯ ПО СОВМЕЩЕНИЮ СТРУКТУР И ВЫРАВНИВАНИЯ ПРОГРАММОЙ MSA

Для выполнения задания были выбраны последовательности белков (цепей А) семейства Cadherin domain (PF00028) со следующими PDB ID: 1zvn, 1zxk, 2a4c, 3k6i, 1nch, 1nci. Совмещение 3D-структур белков показано на рис. 1, 2.

Ссылки на выравнивания (формат fasta):

PDBeFold;

Muscle;

Ссылка на проект с выравниваниями Jalview

Совмещение стурктур
Свомещение структур 2
Рис. 1, 2. Совмещение 3D-структур белков (зеленый: 1zvn, голубой: 1zxk, розовый: 2a4c, желтый: 3k6i, персиковый: 1nch, белый: 1nci)

Таблица 3. Блоки одинаково выровненных колонок в выравниваниях PDBeFold и Muscle.

PDBeFold Muscle Длина
(1,13) (1,13) 13
(20,26) (19,25) 7
(39,49) (38,48) 11
(51,53) (50,52) 3
(55,106) (54,105) 52

Длина выравнивания PDBeFold: 106;

Длина выравнивания Muscle: 105;

Всего совпадающих колонок: 86 (81.1% от PDBeFold, 81.9% от Muscle);

Всего блоков: 5;

Одиночные совпадающие колонки: 0.

Выравнивание Muscle показывает высокую степерь сходства с выравниванием по совмещению структур PDBeFold (они имеют почти одинаковую длину, высокий процент совпадающих колонок, также присутствуют довольно длинные блоки одинаково выровненных колонок). Начиная со второго блока, у Muscle блоки сдвинуты влево на одну позицию относительно PDBeFold, что скорее всего связано с разной расстановкой гэпов в начале выравниваний.

ОПИСАНИЕ ПРОГРАММЫ MSA T-COFFEE

T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) — это пакет программ для множественного выравнивания последовательностей (MSA), разработанный в 2000 году группой исследователей под руководством Седрика Нотредама, Десмонда Хиггинса и Яапа Херинги [1].

Алгоритм включает три основных этапа [1]:

1) Построение библиотеки всех возможных попарных выравниваний между последовательностями. T-Coffee может получать эти выравнивания с использованием как глобальных, так и локальных методов выравнивания, что позволяет учитывать и общую структуру последовательностей, и отдельные консервативные участки [1].

2) Каждому попарному выравниванию присваивается вес, и библиотека расширяется за счет оценки согласованности между различными парами выравниваний (то есть, при выравнивании двух последовательностей учитывается информация о том, как каждая из них выравнивается с третьей последовательностью) [1].

3) Финальное множественное выравнивание строится с помощью прогрессивного алгоритма. Однако в отличие от ClustalW, на каждом шаге используется информация из расширенной библиотеки попарных выравниваний, что значительно повышает точность [1].

Преимущества. Так как алгоритм учитывает то, как две последовательности выравниваются со всеми остальными последовательностями в наборе, это позволяет избежать ошибок, допущенных при первых выравниваниях, что свойственно "жадному" характеру прогрессивного выравнивания. Также T-Coffee имеет высокую точность выравнивания, превосходя многие программы, особенно для эволюционно далеких последовательностей [1].

Недостатками T-Coffee являются низкая скорость построения выравнивания (он медленнее, чем ClustalW или MUSCLE), а также высокое потребление оперативной памяти и вычислительных ресурсов [2].

Сейчас пакет T-Coffee включает и другие расширения, например M-Coffee (Meta-Coffee) для объединения результатов нескольких программ MSA в одно итоговое выравнивание [3] или Expresso для улучшения выравнивания с помощью информации о трехмерной структуре белков [2].

ИСТОЧНИКИ

1. Notredame C., Higgins D. G., Heringa J. T-Coffee: A novel method for fast and accurate multiple sequence alignment //Journal of molecular biology. – 2000. – Т. 302. – №. 1. – С. 205-217.

2. Notredame C., Suhre K. Computing multiple sequence/structure alignments with the T‐coffee package //Current protocols in bioinformatics. – 2003. – Т. 4. – №. 1. – С. 3.8. 1-3.8. 28.

3. Moretti S. et al. The M-Coffee web server: a meta-method for computing multiple sequence alignments by combining alternative alignment methods //Nucleic acids research. – 2007. – Т. 35. – №. suppl_2. – С. W645-W648.