Oluuu~Практикум 12.

Практикум 12. Алгоритмы и программы множественного выравнивания

СРАВНЕНИЕ ВЫРАВНЕНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ТРЕМЯ РАЗНЫМИ ПРОГРАММАМИ MSA

Для выполнения задания были выбраны последовательности семейства белковых доменов Ribosome inactivating protein (PF00161). Для выравнивания использовались программы MSA Muscle, Mafft и T-Coffee, в качестве референсного выравнивания было выбрано выравнивание Muscle. Для сравнения выравниваний использовался код моей однокурсницы Елены Гончаровой.

Ссылки на выравнивания (формат fasta):

• Muscle;

• Mafft;

• T-Coffee.

Ссылка на проект с выравниваниями Jalview

1) СРАВНЕНИЕ MUSCLE И MAFFT

Таблица 1. Блоки одинаково выровненных колонок в выравниваниях Muscle и Mafft.

Muscle	Mafft	Длина
(76,86)	(84,94)	11
(144,158)	(155,169)	15
(212,218)	(232,238)	7
(294,298)	(319,323)	5
(304,314)	(329,339)	11
(346,353)	(329,339)	11

Длина выравнивания Muscle: 749;

Длина выравнивания Mafft: 834;

Всего совпадающих колонок: 59 (7.9% от Muscle, 7.1% от Mafft);

Всего блоков: 6;

Одиночные совпадающие колонки: (637,678), (639,680).

2) СРАВНЕНИЕ MUSCLE И T-COFFEE

Таблица 2. Блоки одинаково выровненных колонок в выравниваниях Muscle и T-Coffee.

Muscle	T-Coffee	Длина
(75,87)	(74,86)	13
(143,160)	(150,167)	18
(278,279)	(304,305)	2
(294,298)	(323,327)	5
(304,314)	(333,343)	11
(346,354)	(377,385)	9
(463,473)	(493,503)	11
(621,625)	(672,676)	5
(637,639)	(707,709)	3

Длина выравнивания Muscle: 749;

Длина выравнивания T-Coffee: 870;

Всего совпадающих колонок: 78 (10.4% от Muscle, 9.0% от T-Coffee);

Всего блоков: 9;

Одиночные совпадающие колонки: (619,670).

Выравнивание T-Coffee немного больше похоже на выравнивание Muscle: у этих выравниваний больше совпадающих блоков и колонок в целом, чем у Muscle и Mafft, то есть, в выравнивании T-Coffeе больше участков, идентичных Muscle. Также, в обоих случаях совпадения есть в первой половине выравнивания, однако у выравниваний Muscle и T-Coffee совпадающие блоки присутствуют и в конце последовательностей. И в Mafft, и в T-Coffee, по сравнению с Muscle, больше гэпов, поэтому они длиннее.

СРАВНЕНИЕ ВЫРАВНИВАНИЯ ПО СОВМЕЩЕНИЮ СТРУКТУР И ВЫРАВНИВАНИЯ ПРОГРАММОЙ MSA

Для выполнения задания были выбраны последовательности белков (цепей А) семейства Cadherin domain (PF00028) со следующими PDB ID: 1zvn, 1zxk, 2a4c, 3k6i, 1nch, 1nci. Совмещение 3D-структур белков показано на рис. 1, 2.

Ссылки на выравнивания (формат fasta):

• PDBeFold;

• Muscle;

Ссылка на проект с выравниваниями Jalview

Совмещение стурктур — **Рис. 1, 2.** Совмещение 3D-структур белков (зеленый: 1zvn, голубой: 1zxk, розовый: 2a4c, желтый: 3k6i, персиковый: 1nch, белый: 1nci)

Свомещение структур 2 — **Рис. 1, 2.** Совмещение 3D-структур белков (зеленый: 1zvn, голубой: 1zxk, розовый: 2a4c, желтый: 3k6i, персиковый: 1nch, белый: 1nci)

Таблица 3. Блоки одинаково выровненных колонок в выравниваниях PDBeFold и Muscle.

PDBeFold	Muscle	Длина
(1,13)	(1,13)	13
(20,26)	(19,25)	7
(39,49)	(38,48)	11
(51,53)	(50,52)	3
(55,106)	(54,105)	52

Длина выравнивания PDBeFold: 106;

Длина выравнивания Muscle: 105;

Всего совпадающих колонок: 86 (81.1% от PDBeFold, 81.9% от Muscle);

Всего блоков: 5;

Одиночные совпадающие колонки: 0.

Выравнивание Muscle показывает высокую степерь сходства с выравниванием по совмещению структур PDBeFold (они имеют почти одинаковую длину, высокий процент совпадающих колонок, также присутствуют довольно длинные блоки одинаково выровненных колонок). Начиная со второго блока, у Muscle блоки сдвинуты влево на одну позицию относительно PDBeFold, что скорее всего связано с разной расстановкой гэпов в начале выравниваний.

ОПИСАНИЕ ПРОГРАММЫ MSA T-COFFEE

T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) — это пакет программ для множественного выравнивания последовательностей (MSA), разработанный в 2000 году группой исследователей под руководством Седрика Нотредама, Десмонда Хиггинса и Яапа Херинги [1].

Алгоритм включает три основных этапа [1]:

1) Построение библиотеки всех возможных попарных выравниваний между последовательностями. T-Coffee может получать эти выравнивания с использованием как глобальных, так и локальных методов выравнивания, что позволяет учитывать и общую структуру последовательностей, и отдельные консервативные участки [1].

2) Каждому попарному выравниванию присваивается вес, и библиотека расширяется за счет оценки согласованности между различными парами выравниваний (то есть, при выравнивании двух последовательностей учитывается информация о том, как каждая из них выравнивается с третьей последовательностью) [1].

3) Финальное множественное выравнивание строится с помощью прогрессивного алгоритма. Однако в отличие от ClustalW, на каждом шаге используется информация из расширенной библиотеки попарных выравниваний, что значительно повышает точность [1].

Преимущества. Так как алгоритм учитывает то, как две последовательности выравниваются со всеми остальными последовательностями в наборе, это позволяет избежать ошибок, допущенных при первых выравниваниях, что свойственно "жадному" характеру прогрессивного выравнивания. Также T-Coffee имеет высокую точность выравнивания, превосходя многие программы, особенно для эволюционно далеких последовательностей [1].

Недостатками T-Coffee являются низкая скорость построения выравнивания (он медленнее, чем ClustalW или MUSCLE), а также высокое потребление оперативной памяти и вычислительных ресурсов [2].

Сейчас пакет T-Coffee включает и другие расширения, например M-Coffee (Meta-Coffee) для объединения результатов нескольких программ MSA в одно итоговое выравнивание [3] или Expresso для улучшения выравнивания с помощью информации о трехмерной структуре белков [2].

ИСТОЧНИКИ

1. Notredame C., Higgins D. G., Heringa J. T-Coffee: A novel method for fast and accurate multiple sequence alignment //Journal of molecular biology. – 2000. – Т. 302. – №. 1. – С. 205-217.

2. Notredame C., Suhre K. Computing multiple sequence/structure alignments with the T‐coffee package //Current protocols in bioinformatics. – 2003. – Т. 4. – №. 1. – С. 3.8. 1-3.8. 28.

3. Moretti S. et al. The M-Coffee web server: a meta-method for computing multiple sequence alignments by combining alternative alignment methods //Nucleic acids research. – 2007. – Т. 35. – №. suppl_2. – С. W645-W648.