Алгоритмы и программы множественного выравнивания

Сравнение результатов выравнивания одних и тех же последовательностей тремя разными программами

Для выполнения данного пункта были выбраны последовательности того же семейства белковых доменов, которое уже было рассмотрено в предыдущем практикуме (ABC-транспортёрам). Для их выравнивания использовались программы Muscle, Mafft и T-Coffee (проект в Jalview со сравниваемыми выравниваниями). В качестве референсной программы для выравнивания выступал Muscle, с ним сравнивались все остальные. Для сравнения выравниваний был использован код, написанный моей однокурсницей Еленой Гончаровой (на момент написания данного текста уже известно, что эта программа не находит единичные совпадающие колонки, поэтому далее этот пункт при анализе опускается).

Таблица 1. Сравнение MUSCLE и MAFFT
Muscle Mafft Длина
Совпадающие участки
13-31 20-38 19
198-199 315-316 2
230-261 348-379 32
Несовпадающие участки
1-12 1-19
32-197 39-314
200-229 317-347
Длина выравнивания Muscle: 261
Длина выравнивания Mafft: 379
Cовпадающих колонок: ~20.7%* от Muscle

*Не учитывает одиночные совпадающие колонки!

Таблица 2. Сравнение MUSCLE и T-Coffee
MUSCLE T-Coffee Длина
Совпадающие участки
1-31 1-31 31
41-43 41-43 3
136-141 191-196 6
229-237 421-429 9
245-261 437-453 17
Несовпадающие блоки
32-40 32-40
44-135 44-190
142-228 197-420
238-244 430-436
Длина выравнивания Muscle: 261
Длина выравнивания T-Coffee: 453
Cовпадающих колонок: ~25.3%* от Muscle

*Не учитывает одиночные совпадающие колонки!

В результате попарного сравнения выравниваний, полученных с помощью программ Mafft и T-Coffee, с референсным выравниванием Muscle было установлено, что наибольшую степень сходства с референсом демонстрирует выравнивание, построенное T-Coffee. Несмотря на бóльшую протяжённость данного выравнивания, оно обладает бо́льшим количеством совпадающих с Muscle позиций. Выравнивание, полученное с помощью Mafft, несколько уступает T-Coffee по числу совпадающих блоков, однако различия между ними не являются критическими.

Сравнение результатов выравнивания по совмещению структур с выравниванием Muscle

В этом задании вновь пришлось обратиться к семейству белковых доменов из 11-го практикума. Были выбраны последовательности белков, содержащих этот домен (цепь А), далее представлены их PDB ID: 1g9x, 1ji0, 1xef, 1oxu. Также было выполнено два множественных выравнивания: первое — с помощью программы Muscle, второе — получено путём совмещения структур с использованием программы PDBeFold. Результат совмещения представлен на рисунке 1, для визуализации использовалась программа PyMOL. Кроме того, в Jalview был создан проект, содержащий оба выравнивания для их наглядного сравнения.

Proteins

Рисунок 1. Совмещение 3D-структур белков
(1g9x:A – зеленый, 1ji0:A – желтый, 1xef:A – розовый, 1oxu:A – бирюзовый)

Таблица 3. Сравнение MUSCLE и PDBeFold
MUSCLE PDBeFold Длина
Совпадающие блоки
18-5520-5738
60-7563-7816
87-9391-977
98-110104-11613
127-128133-1342
150-151173-1742
162-188185-21127
214-223240-24910
229-244256-27116
247-248275-2762
258-261283-2864
277-346303-37270
353-371379-39719
Несовпадающие блоки
1-171-19
56-5958-62
76-8679-90
94-9798-103
111-126117-132
129-149135-172
152-161175-184
189-213212-239
224-228250-255
245-246272-274
249-257277-282
262-276287-302
347-352373-378
372-378398-404
Длина выравнивания Muscle: 378
Длина выравнивания Mafft: 404
Cовпадающих колонок: ~61.1%* от Muscle

*Не учитывает одиночные совпадающие колонки!

Проанализировав результаты сравнения выравнивания, полученного путём совмещения структур, с референсным выравниванием программы Muscle, можно отметить высокий уровень их сходства. Об этом свидетельствуют очень близкая длина выравниваний и большое количество довольно протяжённых совпадающих блоков.

Высокий процент совпадающих колонок между двумя выравниваниями также показывает, что программа Muscle в данном случае построила выравнивание, очень близкое к эволюционному. Его результат оказался схож с выравниванием по структурному совмещению, которое считается более правильным, поскольку структурные единицы эволюционно более устойчивы, чем первичная последовательность.

Программа MSA MAFFT

MAFFT (Multiple Alignment using Fast Fourier Transform) — это широко используемая высокопроизводительная программа для множественного выравнивания биологических последовательностей (MSA), разработанная Катохом и соавторами в 2002 году [1].

Основные подходы алгоритма MAFFT:

  1. Быстрое преобразование Фурье (FFT):
  2. Аминокислотная последовательность преобразуется в последовательность векторов, компонентами которых являются физико-химические свойства каждого остатка (объём и полярность по шкале Грантема). Корреляция между такими последовательностями вычисляется с помощью быстрого преобразования Фурье, что позволяет быстро находить гомологичные участки и снижает вычислительную сложность для консервативных участков последовательностей [1].

  3. Несколько стратегий выравнивания:
  4. В MAFFT реализовано несколько подходов, которые можно настраивать в зависимости от размера данных и требуемой точности:

    • Прогрессивные методы [2];
    • Методы итеративного уточнения (значительно повышают точность за счёт многократного перевыравнивания) [3];
    • Методы для больших данных [4].
  5. Добавление новых последовательностей:
  6. Со временем в программе появилась возможность добавлять новые последовательности (в том числе фрагментарные) в уже готовое выравнивание без его полной перестройки [2]. Это может быть особенно полезно при работе с данными секвенирований нового поколения.

Преимущества:

  1. MAFFT сочетает высокую скорость работы с точностью, сопоставимой или превосходящей такие программы, как ClustalW, T-Coffee и MUSCLE, особенно при работе с большими наборами данных [3].
  2. Программа использует нормализованную матрицу сходства (содержащую как положительные, так и отрицательные значения), что улучшает выравнивание последовательностей разной длины [1].
  3. MAFFT поддерживает многопоточные вычисления, что позволяет эффективно использовать многоядерные процессоры [2].

Недостатки:

  1. Несмотря на высокую скорость, методы итеративного уточнения могут требовать значительных вычислительных ресурсов при работе с очень большими наборами последовательностей.
  2. Для начинающих пользователей большое количество доступных подходов к выравниванию может затруднять выбор подходящего.

Доступность

MAFFT доступен как в виде командной строки, так и через веб-интерфейс, который предоставляет интерактивные инструменты для выбора последовательностей и визуализации результатов [4].

Список литературы