Алгоритмы и программы множественного выравнивания

Петренко Павел

Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова

Сравнение выравнивания одних и тех же последовательностей тремя разными программами

При выполнении этого задания я решил сравнить работу таких программ множественного выравнивания, как MAFFT, T-coffee и MUSCLE. При этом в качестве референсного выравнивания использовалось выравнивание, полученное при использовании программы MAFFT, так как согласно информации с лекции она имеет наибольший средний вес сравнения с выравниванием BAliBASE, которое принято за "идеальное выравнивание". Выравнивал я белки из домена Cytochrome С (AC: PF00034, ID: Cytochrom_C), с которым я столкнулся в практикуме 3. Все сравниваемые программы были запущены в Jalview со стандартными параметрами. Далее для сравнения выравниваний использовалась программа MACHO на kodomo, разработанная моими однокурсниками Маслениковым Всеволодом, Гагарочкиным Виталием и Нагорным Даниилом.

Таблица 1. Сравнение выравниваний
Программы Длина выравнивания MAFFT Доля одинаково выровненных колонок Длина второго выравнивания Доля одинаково выровненных колонок Одиночные колонки Координаты блоков в первом выравнивании Координаты блоков во втором выравнивании
MAFFT и
T-coffee
253 7.11% 265 6.79% (63,63) (13-15)
(21-26)
(43-44)
(107-109)
(126-128)
(13-15)
(22-27)
(43-44)
(112-114)
(141-143)
MAFFT и MUSCLE 253 2.77% 144 4.86% - (14-15)
(21-25)
(16-17)
(23-27)

В результате двух выравниваний видно, что выравнивание программы T-coffee больше похоже на выравнивание программы MAFFT, чем MUSCLE (это видно даже из длины выравниваний, так как выравнивание программы MUSCLE заметно короче). Так, если принимать выравнивание MAFFT за наиболее близкое к "идеалу" BaliBASE, можно сделать вывод, что программа T-coffee работает лучше, чем MUSCLE. Это может быть обусловлено тем, что программа T-coffee комбинирует несколько результатов разных выравниваний (например, ClustalW, LALIGN), создавая библиотеку попарных выравниваний, на основе которых строится итоговое множественное выравнивание. Это позволяет учитывать как глобальные, так и локальные сходства. Однако стоит заметить, что программа MUSCLE работает быстрее, а также она была выпущена позже, чем T-coffee (2004 и 2000 гг).

Проект JalView

Fasta-файл с результатом работы программы MAFFT

Fasta-файл с результатом работы программы T-COFFEE

Fasta-файл с результатом работы программы MUSCLE

Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MAFFT из MSA

Рис.1. Изображение совмещения трех структур

Для выполнения этого пункта я выбрал тоже семейство белков Cytochrome С (AC: PF00034, ID: Cytochrom_C), что и в предыдущем пункте. Затем я выбрал три белка: Cytochrome C-551 from P.Stutzeri Zobell(1CCH), Cytochrome C-553 from Desulfovibrio Vulgaris (1C53) и Ferricytochrome C-552 from Nitrosomonas Europaea (1A56). Затем с помощью подсказок в задании практикума я получил множественное выравнивание на основе совмещения структур, а также выровнял эти последовательности программов MAFFT в JalView. Сравнение двух выравниваний было, как и в предыдущем случае, сделано с помощью программы MACHO на kodomo, сделанной моими однокурсниками. В результате выравнивания видно, что есть одинаковые участки выравнивания, которые соответствуют участкам связывания с лигандом.


Таблица 2. Сравнение выравниваний
Программы Длина выравнивания MAFFT Доля одинаково выровненных колонок Длина второго выравнивания Доля одинаково выровненных колонок Одиночные колонки Координаты блоков в первом выравнивании Координаты блоков во втором выравнивании
PDB и
MAFFT
92 35.87% 91 36.2% (10,10)
(23,23)
(36,37)
(6-8)
(12-19)
(72-73)
(76-92)
(6-8)
(12-19)
(72-73)
(75-91)

Проект JalView

Описание программы MUSCLE

MUSCLE (Multiple Sequence Comparison by Log-Expectation) — это программа для множественного выравнивания последовательностей, разработанная Робертом Эдгаром в 2004 году. Она сочетает высокую скорость работы с хорошей точностью, и её основным преимуществом является работа с большими объёмами данных. Также MUSCLE поддерживает разные матрицы замен и параметры выравнивания.

Как работает MUSCLE?

  • Построение первичного выравнивания
  • Сначала MUSCLE выполняет попарное сравнение последовательностей, вычисляя меру сходства между всеми парами последовательностей (использует при этом метод слов, подобно тому, что мы рассматривали в BLAST). Затем на основе матрицы расстояний строится дерево кластеризации, которое определяет порядок добавления последовательностей в выравнивание. Последовательности добавляются в множественное выравнивание одна за другой согласно дереву, начиная с наиболее похожих.


  • Улучшение выравнивания
  • После этого MUSCLE рекурсивно разбивает дерево на две части и перевыравнивает подгруппы. Алгоритм пытается улучшить вес выравнивания, переставляя последовательности и изменяя gaps. Для более точного учета вероятностей аминокислотных замен используется алгоритм "Log-Expectation" (логарифмического ожидания).


  • Окончательная оптимизация
  • MUSCLE использует эвристики для выделения высококонсервативных участков и их выравнивания. Также происходит параметризация: пользователь может настраивать штрафы за гэпы, матрицы замен и некоторые другие параметры.

    Статья, которой я пользовался для выполнения этого пункта задания: MUSCLE: multiple sequence alignment with high accuracy and high throughput Open Access; Robert C. Edgar; Nucleic Acids Research, Volume 32, Issue 5, 1 March 2004, Pages 1792–1797