Сравние выравнивания одних и тех же последовательностей разными программами

Для выполнения работы был выбран белковый домен Arrestin (or S-antigen), N-terminal domain, AC - PF00339 из практикума 11.

Выравнивание проводили с помощью программ: MAFFT, MUSCLE, T-COFFEE. Ниже предоставлен файл Jalview cо сравниваемыми выравниваниями одних и тех же последовательностей

Jalview

Далее мы сравнили полученные результаты, используя программу Macho.py , сделанную однокурсниками, получили список одинаково выровненных колонок и представили их в таблице 1.

Таблица 1. Результаты сравнения выравниваний Mafft с Muscle и Mafft с T-coffee
Mafft и Muscle Mafft и T-coffee
Блоки одинаково выровненных колонок (29-40)-(18-29)
(49-56)-(38-45)
(142-15)-(115-127)
(157-186)-(130-159)
(15-16)-(18-19)
(20-21)-(10-11)
(31-39)-(23-31)
(49-61)-(43-55)
(113-115)-(96-98)
(141-186)-(127-172)
(201-202)-(186-187)
(214-216)-(205-207)
Одинаково выровненные колонки, не входящие в блоки (105)-(87)
(191)-(177)
(195-183)

Видно, что программы Mafft t-coffee имеют большую схожесть, чем mafft, muscle. Разница в результатах выравнивания между программами заключается в разных алгоритмических подходах. Несмотря на то, что все три программы используют прогрессивный и итеративный метод, Muscle принципиально отличается от T-coffee тем, что она использует метод, который предполагает, что мутации происходят с постоянной скоростью, в то время как T-coffee - что скорость мутаций непостоянна.

Совмещение структур и сравнение с программой MSA

Для выполнения задания выбрали 3 белка семейства Arrestin из Pfam:

1) ARRS_BOVIN (1ayr). Белок связывается с фосфорилированным, активированным светом родопсином (RHO) и прерывает передачу сигналов RHO через G-белки.

2) ARRB1_BOVIN (1g4m). Участвует в регуляции передачи сигналов через рецепторы, связанные с G-белками (GPCR) и действует как "выключатель" для рецепторов, чтобы клетка не перегружалась сигналами.

3) ARRB2_BOVIN (3p2d). Функционально схож с ARRB1_BOVIN, но он работает с широким спектром GPCR (дофамин, адренорецепторы) и связывает рецепторы медленнее, но регулирует больше сигнальных путей.

Далее было проведено два выравнивания разными способами: программой MSA и из совмещения структур.

В проекте Jalview представлены 2 выравнивания, которые мы сравним, используя программу Macho.py. На выходе получили список одинаково выровненных колонок у выбранных последовательностей. Результаты приведены в таблице 2.

Таблица 2. Результаты сравнения выравниваний PDB и Mafft
Таблица 13-1 Mafft и PDB
Блоки одинаково выровненных колонок (1-94)-(1-94)
(99-157)-(100-158)
(159-161)-(161-163)
(168-187)-(171-190)
(200-337)-(205-342)
(340-343)-(345-348)
(346-362)-(351-367)
(364-368)-(369-373)
Одинаково выровненные колонки, не входящие в блоки (374)-(385)

Длина структурного выравнивания: 385

Длина выравнивания Mafft: 374

Процент совпадающих колонок в первом выравнении (Mafft): 91.18%

Процент совпадающих колонок во втором выравнении (PDB): 88.57%

Видно, что выравнивания очень похожи, но не идентичны, самый большой консервативный блок одинаково выровненных колонок (200-337)-(205-342). Так как 2 выравнивания имеет высокий процент совпадающих колонок, то можно сделать вывод о том, что выравнивание достаточно близко к эволюционному.

Для наглядности добавим рисунок 1 - визуальное представление совмещения трех структур.

Рисунок 1. Визуальное выравнивание структур

Визуальный анализ показал высокую степень совпадения структурных элементов, что подтверждает консервативность доменной организации белков семейства Arrestin.

Программа MSA - Muscle

MUSCLE (от англ. Multiple Sequence Comparison by Log-Expectation) — компьютерная программа для выравнивания множественных последовательностей белковых и нуклеотидных последовательностей. Программа была разработан Робертом Эдгаром (Robert C. Edgar) и впервые представлен в 2004 году. Элементы алгоритма включают быструю оценку расстояния с помощью подсчёта k-меров, прогрессивное выравнивание с помощью новой функции профиля, которую мы называем оценкой логарифмического ожидания, и уточнение с помощью зависимого от дерева ограниченного разбиени[1] .

Ключевые особенности:

- Высокая скорость: Оптимизированный алгоритм позволяет обрабатывать большие наборы данных (до ~10 000 последовательностей).

- Трехэтапный алгоритм:

1)Грубое выравнивание

2)Уточнение дерева

3)Итеративное улучшение

- Поддержка разных форматов: FASTA, CLUSTAL, MSF и др.

Преимущества перед аналогами (ClustalW, T-Coffee):

- В 2-10 раз быстрее ClustalW.

- Эффективен для умеренно гомологичных последовательностей.

Недостатки:

- Менее точен для сильно дивергентных последовательностей.

- Ограниченная поддержка структурной информации [2]