Алгоритмы и программы множественного выравнивания

Петренко Павел

Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова

Сравнение выравнивания одних и тех же последовательностей тремя разными программами

При выполнении этого задания я решил сравнить работу таких программ множественного выравнивания, как MAFFT, T-coffee и MUSCLE. При этом в качестве референсного выравнивания использовалось выравнивание, полученное при использовании программы MAFFT, так как согласно информации с лекции она имеет наибольший средний вес сравнения с выравниванием BAliBASE, которое принято за "идеальное выравнивание". Выравнивал я белки из домена Cytochrome С (AC: PF00034, ID: Cytochrom_C), с которым я столкнулся в практикуме 3. Все сравниваемые программы были запущены в Jalview со стандартными параметрами. Далее для сравнения выравниваний использовалась программа MACHO на kodomo, разработанная моими однокурсниками Маслениковым Всеволодом, Гагарочкиным Виталием и Нагорным Даниилом.

Таблица 1. Сравнение выравниваний

Программы	Длина выравнивания MAFFT	Доля одинаково выровненных колонок	Длина второго выравнивания	Доля одинаково выровненных колонок	Одиночные колонки	Координаты блоков в первом выравнивании	Координаты блоков во втором выравнивании
MAFFT и T-coffee	253	7.11%	265	6.79%	(63,63)	(13-15) (21-26) (43-44) (107-109) (126-128)	(13-15) (22-27) (43-44) (112-114) (141-143)
MAFFT и MUSCLE	253	2.77%	144	4.86%	-	(14-15) (21-25)	(16-17) (23-27)

В результате двух выравниваний видно, что выравнивание программы T-coffee больше похоже на выравнивание программы MAFFT, чем MUSCLE (это видно даже из длины выравниваний, так как выравнивание программы MUSCLE заметно короче). Так, если принимать выравнивание MAFFT за наиболее близкое к "идеалу" BaliBASE, можно сделать вывод, что программа T-coffee работает лучше, чем MUSCLE. Это может быть обусловлено тем, что программа T-coffee комбинирует несколько результатов разных выравниваний (например, ClustalW, LALIGN), создавая библиотеку попарных выравниваний, на основе которых строится итоговое множественное выравнивание. Это позволяет учитывать как глобальные, так и локальные сходства. Однако стоит заметить, что программа MUSCLE работает быстрее, а также она была выпущена позже, чем T-coffee (2004 и 2000 гг).

Проект JalView

Fasta-файл с результатом работы программы MAFFT

Fasta-файл с результатом работы программы T-COFFEE

Fasta-файл с результатом работы программы MUSCLE

Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MAFFT из MSA

Рис.1. Изображение совмещения трех структур

Для выполнения этого пункта я выбрал тоже семейство белков Cytochrome С (AC: PF00034, ID: Cytochrom_C), что и в предыдущем пункте. Затем я выбрал три белка: Cytochrome C-551 from P.Stutzeri Zobell(1CCH), Cytochrome C-553 from Desulfovibrio Vulgaris (1C53) и Ferricytochrome C-552 from Nitrosomonas Europaea (1A56). Затем с помощью подсказок в задании практикума я получил множественное выравнивание на основе совмещения структур, а также выровнял эти последовательности программов MAFFT в JalView. Сравнение двух выравниваний было, как и в предыдущем случае, сделано с помощью программы MACHO на kodomo, сделанной моими однокурсниками. В результате выравнивания видно, что есть одинаковые участки выравнивания, которые соответствуют участкам связывания с лигандом.

Таблица 2. Сравнение выравниваний

Программы	Длина выравнивания MAFFT	Доля одинаково выровненных колонок	Длина второго выравнивания	Доля одинаково выровненных колонок	Одиночные колонки	Координаты блоков в первом выравнивании	Координаты блоков во втором выравнивании
PDB и MAFFT	92	35.87%	91	36.2%	(10,10) (23,23) (36,37)	(6-8) (12-19) (72-73) (76-92)	(6-8) (12-19) (72-73) (75-91)

Проект JalView

Описание программы MUSCLE

MUSCLE (Multiple Sequence Comparison by Log-Expectation) — это программа для множественного выравнивания последовательностей, разработанная Робертом Эдгаром в 2004 году. Она сочетает высокую скорость работы с хорошей точностью, и её основным преимуществом является работа с большими объёмами данных. Также MUSCLE поддерживает разные матрицы замен и параметры выравнивания.

Как работает MUSCLE?

Построение первичного выравнивания

Сначала MUSCLE выполняет попарное сравнение последовательностей, вычисляя меру сходства между всеми парами последовательностей (использует при этом метод слов, подобно тому, что мы рассматривали в BLAST). Затем на основе матрицы расстояний строится дерево кластеризации, которое определяет порядок добавления последовательностей в выравнивание. Последовательности добавляются в множественное выравнивание одна за другой согласно дереву, начиная с наиболее похожих.

Улучшение выравнивания

После этого MUSCLE рекурсивно разбивает дерево на две части и перевыравнивает подгруппы. Алгоритм пытается улучшить вес выравнивания, переставляя последовательности и изменяя gaps. Для более точного учета вероятностей аминокислотных замен используется алгоритм "Log-Expectation" (логарифмического ожидания).

Окончательная оптимизация

MUSCLE использует эвристики для выделения высококонсервативных участков и их выравнивания. Также происходит параметризация: пользователь может настраивать штрафы за гэпы, матрицы замен и некоторые другие параметры.

Статья, которой я пользовался для выполнения этого пункта задания: MUSCLE: multiple sequence alignment with high accuracy and high throughput Open Access; Robert C. Edgar; Nucleic Acids Research, Volume 32, Issue 5, 1 March 2004, Pages 1792–1797