Практикум №13. Алгоритмы и программы множественного выравнивания.
2. Сравнение выравнивания одних и тех же последовательностей тремя разными программами
Для построения выравниваний было выбрано семейство доменов PF17256 комплекса убиквитинлигазы весом 1,5 мегадальтон и состоящий из 19 субъединиц. Эта многофункциональная убиквитин-протеинлигаза регулирует различные клеточные процессы, такие как клеточное деление, дифференцировка, стабильность генома, энергетический метаболизм, гибель клеток, аутофагия, а также канцерогенез.
Было проведено три множестенных выравнивания алгоритмами T-COFFEE, MAFFT и MUSLE пяти последовательностей белков, содержащих доменную архитектуру PF17256 - PF07809 c ID: A0A493TR21_ANAPP, A0A493TX67_ANAPP, A0A8B9G2P4_9PSIT, A0A8C3EK59_CORMO, A0AAD4XZP6_OVIAM.
Первая с верху группа - выравнивание T-COFFEE, затем MUSLE и MAFFT.
В качестве референсного выравнивания было вырбано выполненное алгоритмом T-COFFEE. С ним сравнивались MAFFT и MUSLE.
1. Сравнение T-COFFEE и MAFFT
Block
Alignment_1 (MAFFT)
Alignment_2 (T-COFFEE)
1
1-12
1-12
2
17-139
17-139
3
144-175
144-175
4
184-264
184-264
5
267-401
267-401
6
404-412
404-412
7
414-414
414-414
8
416-529
416-529
9
532-564
532-564
Длинна выравнивания MAFFT: 564
Длинна выравнивания T-COFFEE: 564
Процент совпадающих колонок для выравниваний: 95.74%
2. Сравнение T-COFFEE и MUSCLE
Block
Alignment_1 (MUSCLE)
Alignment_2 (T-COFFEE)
1
1-412
1-412
2
414-414
414-414
3
416-528
416-528
4
531-564
531-564
Длинна выравнивания MUSCLE: 564
Длинна выравнивания T-COFFEE: 564
Процент совпадающих колонок для выравниваний: 99.29%
Обсуждение результата
Исходя из процентов свопадающих колонок, а также из визуального анализа, следует наибольшее сходство T-COFFEE к MUSCLE, чем к MAFFT. Визуальные отличия наиболее заметны на следующих участках (колонки): 13-17, 176-183, 265-266, 403-404.
Это может быть обусловлено сходством T-COFFEE и MUSCLE: оба метода начинают с построения парных выравниваний между последовательностями, чтобы оценить их сходство и подготовить основу для дальнейшего объединения (кластеризации). А также общим различием с алгоритмом MAFFT: T-COFFEE и MUSCLE строят деревья сходства для определения порядка объединения последовательностей, тогда как MAFFT использует более прямой подход — алгоритмы на базе быстрого преобразования Фурье (FFT) для поиска схожих участков и объединения. Однако в результате работы всех 3 алгоритмов выравнивания обладают большим сходством друг с другом.
3. Выравнивание по совмещению структур и сравнение его с выравниванием программой MSA
Для выполниения задания было выбрано семейство доменов PF00171, из которого были выбраны 3 разных белка, имеющие 3D структуру: 1bpw (треска), 1ag8 (бык), 1bxs (овца). В данном случае была цель сравнить альдегиддегидрогеназы разных видов. В качестве референсного была взята последовательность 1ag8.
Первая группа последовательностей соответствует выравниванию по структуре, выполненному в PDB. Вторая группа - выравнивание алгоритма MUSCLE.
Изображение совмещения трех структур
Как видно из совемещения пространственных структур, несмотря на дальное родство быка и овцы с треской, структуры их альдегиддегидрогеназ претерпели мало изменений. Особенно это касается каталитического центра фермента.
Было проведено сравнение выравнивания совмещением пространственных структур и алгоритмом множественного выравнивания MUSCLE с помощью программы MACHO. Однако она не обнаружила их совпадения.
Столь сильное различие выравниваний может быть обусловленно накоплением большого количества мутаций, но сохранением при этом своей пространственной структуры.
4. Краткое описание программы MUSLE
Программа MUSCLE (Multiple Sequence Comparison by Log-Expectation) — это популярный алгоритм для множественного выравнивания последовательностей, разработанный в 2004 году. Она отличается высокой скоростью и точностью по сравнению с предыдущими методами, такими как ClustalW или T-Coffee.
Основные этапы работы MUSCLE включают:
1. Первичное выравнивание и построение профиля: алгоритм сначала создает быстрое предварительное выравнивание, используя парные сравнения последовательностей на основе оценки расстояний (distances matrix). Эти расстояния рассчитываются по схеме log-expectation, что и отражено в аббревиатуре MUSCLE.
2. Древовидная кластеризация: используя полученные расстояния, строится гнездовой кластерный анализ (например, по методу UPGMA или neighbour-joining), что позволяет определить группы последовательностей.
3. Множественное выравнивание: на основе кластерной структуры выполняется последовательное выравнивание групп, что повышает точность по сравнению с начальной скоростью.
4. Оптимизация с использованием итеративных методов: далее программа повторяет этапы выравнивания для улучшения качества, применяя алгоритмы, основанные на максимизации логарифмической функции ожидания (log-expectation).
Список литературы:
Edgar, R. C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research, 32(5), 1792–1797. DOI: 10.1093/nar/gkh340
Kim, D., et al. (2015). Introducing MUSCLE v3.8.31: improved performance and usability. Bioinformatics, 31(22), 3820–3822. DOI: 10.1093/bioinformatics/btv468