SOMova Alexandra - alignment comparisons

Алгоритмы и программы множественного выравнивания

Сравнение результатов выравнивания одних и тех же последовательностей тремя разными программами

Для выполнения данного пункта были выбраны последовательности того же семейства белковых доменов, которое уже было рассмотрено в предыдущем практикуме (ABC-транспортёрам). Для их выравнивания использовались программы Muscle, Mafft и T-Coffee (проект в Jalview со сравниваемыми выравниваниями). В качестве референсной программы для выравнивания выступал Muscle, с ним сравнивались все остальные. Для сравнения выравниваний был использован код, написанный моей однокурсницей Еленой Гончаровой (на момент написания данного текста уже известно, что эта программа не находит единичные совпадающие колонки, поэтому далее этот пункт при анализе опускается).

**Таблица 1.** Сравнение MUSCLE и MAFFT
Muscle	Mafft	Длина
Совпадающие участки
13-31	20-38	19
198-199	315-316	2
230-261	348-379	32
Несовпадающие участки
1-12	1-19
32-197	39-314
200-229	317-347

        Длина выравнивания Muscle: 261

        Длина выравнивания Mafft: 379

        Cовпадающих колонок: ~20.7%* от Muscle

*Не учитывает одиночные совпадающие колонки!

**Таблица 2.** Сравнение MUSCLE и T-Coffee
MUSCLE	T-Coffee	Длина
Совпадающие участки
1-31	1-31	31
41-43	41-43	3
136-141	191-196	6
229-237	421-429	9
245-261	437-453	17
Несовпадающие блоки
32-40	32-40
44-135	44-190
142-228	197-420
238-244	430-436

        Длина выравнивания Muscle: 261

        Длина выравнивания T-Coffee: 453

        Cовпадающих колонок: ~25.3%* от Muscle

*Не учитывает одиночные совпадающие колонки!

В результате попарного сравнения выравниваний, полученных с помощью программ Mafft и T-Coffee, с референсным выравниванием Muscle было установлено, что наибольшую степень сходства с референсом демонстрирует выравнивание, построенное T-Coffee. Несмотря на бóльшую протяжённость данного выравнивания, оно обладает бо́льшим количеством совпадающих с Muscle позиций. Выравнивание, полученное с помощью Mafft, несколько уступает T-Coffee по числу совпадающих блоков, однако различия между ними не являются критическими.

Сравнение результатов выравнивания по совмещению структур с выравниванием Muscle

В этом задании вновь пришлось обратиться к семейству белковых доменов из 11-го практикума. Были выбраны последовательности белков, содержащих этот домен (цепь А), далее представлены их PDB ID: 1g9x, 1ji0, 1xef, 1oxu. Также было выполнено два множественных выравнивания: первое — с помощью программы Muscle, второе — получено путём совмещения структур с использованием программы PDBeFold. Результат совмещения представлен на рисунке 1, для визуализации использовалась программа PyMOL. Кроме того, в Jalview был создан проект, содержащий оба выравнивания для их наглядного сравнения.

Рисунок 1. Совмещение 3D-структур белков
(1g9x:A – зеленый, 1ji0:A – желтый, 1xef:A – розовый, 1oxu:A – бирюзовый)

**Таблица 3.** Сравнение MUSCLE и PDBeFold
MUSCLE	PDBeFold	Длина
Совпадающие блоки
18-55	20-57	38
60-75	63-78	16
87-93	91-97	7
98-110	104-116	13
127-128	133-134	2
150-151	173-174	2
162-188	185-211	27
214-223	240-249	10
229-244	256-271	16
247-248	275-276	2
258-261	283-286	4
277-346	303-372	70
353-371	379-397	19
Несовпадающие блоки
1-17	1-19
56-59	58-62
76-86	79-90
94-97	98-103
111-126	117-132
129-149	135-172
152-161	175-184
189-213	212-239
224-228	250-255
245-246	272-274
249-257	277-282
262-276	287-302
347-352	373-378
372-378	398-404

        Длина выравнивания Muscle: 378

        Длина выравнивания Mafft: 404

        Cовпадающих колонок: ~61.1%* от Muscle

*Не учитывает одиночные совпадающие колонки!

Проанализировав результаты сравнения выравнивания, полученного путём совмещения структур, с референсным выравниванием программы Muscle, можно отметить высокий уровень их сходства. Об этом свидетельствуют очень близкая длина выравниваний и большое количество довольно протяжённых совпадающих блоков.

Высокий процент совпадающих колонок между двумя выравниваниями также показывает, что программа Muscle в данном случае построила выравнивание, очень близкое к эволюционному. Его результат оказался схож с выравниванием по структурному совмещению, которое считается более правильным, поскольку структурные единицы эволюционно более устойчивы, чем первичная последовательность.

Программа MSA MAFFT

MAFFT (Multiple Alignment using Fast Fourier Transform) — это широко используемая высокопроизводительная программа для множественного выравнивания биологических последовательностей (MSA), разработанная Катохом и соавторами в 2002 году [1].

Основные подходы алгоритма MAFFT:

Быстрое преобразование Фурье (FFT):

Аминокислотная последовательность преобразуется в последовательность векторов, компонентами которых являются физико-химические свойства каждого остатка (объём и полярность по шкале Грантема). Корреляция между такими последовательностями вычисляется с помощью быстрого преобразования Фурье, что позволяет быстро находить гомологичные участки и снижает вычислительную сложность для консервативных участков последовательностей [1].

Несколько стратегий выравнивания:

В MAFFT реализовано несколько подходов, которые можно настраивать в зависимости от размера данных и требуемой точности:

Прогрессивные методы [2];
Методы итеративного уточнения (значительно повышают точность за счёт многократного перевыравнивания) [3];
Методы для больших данных [4].

Добавление новых последовательностей:

Со временем в программе появилась возможность добавлять новые последовательности (в том числе фрагментарные) в уже готовое выравнивание без его полной перестройки [2]. Это может быть особенно полезно при работе с данными секвенирований нового поколения.

Преимущества:

MAFFT сочетает высокую скорость работы с точностью, сопоставимой или превосходящей такие программы, как ClustalW, T-Coffee и MUSCLE, особенно при работе с большими наборами данных [3].
Программа использует нормализованную матрицу сходства (содержащую как положительные, так и отрицательные значения), что улучшает выравнивание последовательностей разной длины [1].
MAFFT поддерживает многопоточные вычисления, что позволяет эффективно использовать многоядерные процессоры [2].

Недостатки:

Несмотря на высокую скорость, методы итеративного уточнения могут требовать значительных вычислительных ресурсов при работе с очень большими наборами последовательностей.
Для начинающих пользователей большое количество доступных подходов к выравниванию может затруднять выбор подходящего.

Доступность

MAFFT доступен как в виде командной строки, так и через веб-интерфейс, который предоставляет интерактивные инструменты для выбора последовательностей и визуализации результатов [4].

Сравнение результатов выравнивания одних и тех же последовательностей тремя разными программами

Сравнение результатов выравнивания по совмещению структур с выравниванием Muscle

Программа MSA MAFFT

Основные подходы алгоритма MAFFT:

Преимущества:

Недостатки:

Доступность

Список литературы