Практикум №13. Алгоритмы и программы множественного выравнивания.

2. Сравнение выравнивания одних и тех же последовательностей тремя разными программами

Для построения выравниваний было выбрано семейство доменов PF17256 комплекса убиквитинлигазы весом 1,5 мегадальтон и состоящий из 19 субъединиц. Эта многофункциональная убиквитин-протеинлигаза регулирует различные клеточные процессы, такие как клеточное деление, дифференцировка, стабильность генома, энергетический метаболизм, гибель клеток, аутофагия, а также канцерогенез.

Было проведено три множестенных выравнивания алгоритмами T-COFFEE, MAFFT и MUSLE пяти последовательностей белков, содержащих доменную архитектуру PF17256 - PF07809 c ID: A0A493TR21_ANAPP, A0A493TX67_ANAPP, A0A8B9G2P4_9PSIT, A0A8C3EK59_CORMO, A0AAD4XZP6_OVIAM.

Проект со сравниваемыми выравниваниями в Jalview

Первая с верху группа - выравнивание T-COFFEE, затем MUSLE и MAFFT.

В качестве референсного выравнивания было вырбано выполненное алгоритмом T-COFFEE. С ним сравнивались MAFFT и MUSLE.

1. Сравнение T-COFFEE и MAFFT

Block Alignment_1 (MAFFT) Alignment_2 (T-COFFEE)
1 1-12 1-12
2 17-139 17-139
3 144-175 144-175
4 184-264 184-264
5 267-401 267-401
6 404-412 404-412
7 414-414 414-414
8 416-529 416-529
9 532-564 532-564

Длинна выравнивания MAFFT: 564

Длинна выравнивания T-COFFEE: 564

Процент совпадающих колонок для выравниваний: 95.74%

2. Сравнение T-COFFEE и MUSCLE

Block Alignment_1 (MUSCLE) Alignment_2 (T-COFFEE)
1 1-412 1-412
2 414-414 414-414
3 416-528 416-528
4 531-564 531-564

Длинна выравнивания MUSCLE: 564

Длинна выравнивания T-COFFEE: 564

Процент совпадающих колонок для выравниваний: 99.29%

Обсуждение результата

Исходя из процентов свопадающих колонок, а также из визуального анализа, следует наибольшее сходство T-COFFEE к MUSCLE, чем к MAFFT. Визуальные отличия наиболее заметны на следующих участках (колонки): 13-17, 176-183, 265-266, 403-404.

Это может быть обусловлено сходством T-COFFEE и MUSCLE: оба метода начинают с построения парных выравниваний между последовательностями, чтобы оценить их сходство и подготовить основу для дальнейшего объединения (кластеризации). А также общим различием с алгоритмом MAFFT: T-COFFEE и MUSCLE строят деревья сходства для определения порядка объединения последовательностей, тогда как MAFFT использует более прямой подход — алгоритмы на базе быстрого преобразования Фурье (FFT) для поиска схожих участков и объединения. Однако в результате работы всех 3 алгоритмов выравнивания обладают большим сходством друг с другом.

3. Выравнивание по совмещению структур и сравнение его с выравниванием программой MSA

Для выполниения задания было выбрано семейство доменов PF00171, из которого были выбраны 3 разных белка, имеющие 3D структуру: 1bpw (треска), 1ag8 (бык), 1bxs (овца). В данном случае была цель сравнить альдегиддегидрогеназы разных видов. В качестве референсного была взята последовательность 1ag8.

Проект со сравниваемыми выравниваниями в Jalview

Первая группа последовательностей соответствует выравниванию по структуре, выполненному в PDB. Вторая группа - выравнивание алгоритма MUSCLE.

comapre_pr

Изображение совмещения трех структур

Как видно из совемещения пространственных структур, несмотря на дальное родство быка и овцы с треской, структуры их альдегиддегидрогеназ претерпели мало изменений. Особенно это касается каталитического центра фермента.

Было проведено сравнение выравнивания совмещением пространственных структур и алгоритмом множественного выравнивания MUSCLE с помощью программы MACHO. Однако она не обнаружила их совпадения.

Столь сильное различие выравниваний может быть обусловленно накоплением большого количества мутаций, но сохранением при этом своей пространственной структуры.

4. Краткое описание программы MUSLE

Программа MUSCLE (Multiple Sequence Comparison by Log-Expectation) — это популярный алгоритм для множественного выравнивания последовательностей, разработанный в 2004 году. Она отличается высокой скоростью и точностью по сравнению с предыдущими методами, такими как ClustalW или T-Coffee.

Основные этапы работы MUSCLE включают:

1. Первичное выравнивание и построение профиля: алгоритм сначала создает быстрое предварительное выравнивание, используя парные сравнения последовательностей на основе оценки расстояний (distances matrix). Эти расстояния рассчитываются по схеме log-expectation, что и отражено в аббревиатуре MUSCLE.

2. Древовидная кластеризация: используя полученные расстояния, строится гнездовой кластерный анализ (например, по методу UPGMA или neighbour-joining), что позволяет определить группы последовательностей.

3. Множественное выравнивание: на основе кластерной структуры выполняется последовательное выравнивание групп, что повышает точность по сравнению с начальной скоростью.

4. Оптимизация с использованием итеративных методов: далее программа повторяет этапы выравнивания для улучшения качества, применяя алгоритмы, основанные на максимизации логарифмической функции ожидания (log-expectation).

Список литературы:

Edgar, R. C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research, 32(5), 1792–1797. DOI: 10.1093/nar/gkh340

Kim, D., et al. (2015). Introducing MUSCLE v3.8.31: improved performance and usability. Bioinformatics, 31(22), 3820–3822. DOI: 10.1093/bioinformatics/btv468