Семестры

Программмы выравнивания.

Сравнение трех программ выравнивания:
Tcoffee, Muscle, Mafft

Для сравнения выравниваний я решил выбрать последовательности субъединицы D1 фотососистемы II из 5 далеких, в таксономическом плане, организмов: Arabidopsis thaliana, Chara vulgaris, Chlamydomonas reinhardtii, Acetabularia acetabulum, Euglena gracilis, Nostoc sp. . Была выбрана субъединица фотосистемы, так как, по предположению, в связи с ее важной ролью в фотосинтезе вышеперечисленных организмов, она должна быть консервативной

Проект JalView

Оказалось, что данный белок чересчур консервативен: даже в таких дальних организмах последовательность практически идентична. Однако, даже в данном случае удалось сделать интересное наблюдение: при помощи программы acab Ивана Петрушко были сравнены 3 выравнивания, выполненные Tcoffee, Mafft, Muscle. Оказалось, что выравнивания Mafft и Muscle получились идентичными, а у Tcoffee совпадают колонки 4-359 (98.61%).

Чтобы сравнить программы лучше, было решено выбрать менее консервативные белки: в итоге была выбрана фруктозо-1,6-бисфосфатальдолаза (EC 4.1.2.13) - фермент участвующий в процессе гликолиза.

Проект JalView

Были выравнены 4 последовательности из следующих организмов: Homo sapiens, Escherihia coli, Nostoc commune, Arabidopsis thaliana. Результаты приведены в таблицах 1, 2 и 3.

Таблица 1. Сравнение выравниваний Tcoffee и Muscle. Блоки совпадающих колонок.
Начало в Tcoffee Конец в Tcoffee Начало в Muscle Конец в Muscle
49 61 43 55
96 97 90 91
213 236 167 190
270 270 230 230
371 377 282 288
382 391 293 302
425 425 327 327
514 515 415 416
Таблица 2. Сравнение выравниваний Tcoffee и Mafft. Блоки совпадающих колонок.
Начало в Tcoffee Конец в Tcoffee Начало в Mafft Конец в Mafft
65 67 47 49
75 88 57 70
97 101 79 83
128 129 133 134
132 157 137 162
197 201 200 204
215 243 218 246
271 271 282 282
282 284 293 295
294 294 257 257
352 357 336 341
366 368 351 353
378 381 365 368
411 413 414 416
462 462 461 461
514 515 507 508
Таблица 3. Сравнение выравниваний Muscle и Mafft. Блоки совпадающих колонок.
Начало в Muscle Конец в Muscle Начало в Mafft Конец в Mafft
91 91 79 79
169 190 218 239
213 213 264 264
304 315 380 391
322 324 398 400
338 345 417 424
357 357 436 436
401 417 493 509

При сравнении выравниваний субъединицы D1 фотосистемы II, как уже писалось ранее, оказалось, что Mafft и Muscle выдали одинаковые выравнивания, в отличие от Tcofee. Из этого можно было сделать вывод, что их алгоритмы более схожи, чем алгоритм Tcofee. Однако уже в примере с альдолазой результат другой: Tcofee и Mafft имеют наибольший процент общих колонок (20.93% от выравнивания Tcoffee; 21.22% от выравнивания Mafft). В это же время при остальных сравнениях процент общих колонок не превышает 15.60%. Рассмотрим отдельный пример блока, имеющегося, во всех выравниваниях: это, например. 218 - 239 колонки в выравнивании Mafft. Так как он присутствует в выравнивании каждой из программ, а цель каждой из программ - построить выравнивание, близкое к эволюционному, то про колонки, входящие в данный блок, можно с большей уверенностью говорить, что они выровнены эволюционно.

Выравнивание по совмещению структур

Для выравнивания по совмещению структур я выбрал 3 белка семейства IS200 похожих
транспозаз(PF01797), имеющих структуру в базе данных PDB:

  • Q933Z0_HELPX (PDB: 2a6m)
  • Q974H8_SULTO (PDB: 2ec2)
  • Q97Y68_SACS2 (PDB: 2f4f)

Я получил 2 выравнивания трех этих белков: одно с помощью выравнивания по 3D-структуре при помощи сервиса Pairwise Structure Alignment на сайте PDB, и второе - при помощи программы Muscle. На рисунке 1 представлено изображение совмещения трех структур.

Проект JalView

При помощи программы acab Ивана Петрушко, я сравнил эти два выравнивания. Результаты приведены в таблице 4.

Рис. 1. Изображение совмещения трех структур. Цвета, обознчающие структуры различных белков: оранжевый - 2a6m, синий - 2ec2, зеленый - 24f4.
Таблица 4. Сравнение выравниваний Muscle и 3D-совмещения структур белков. Блоки совпадающих колонок.
Начало в Muscle Конец в Muscle Начало в 3D-совмещении Конец в 3D-совмещении
1 97 1 97
99 99 99 99
103 135 103 135

Процент совпадающих колонок в этих выравниваниях - 97.04%. Как несложно заметить из таблицы, действительно, выравнивания практически идентичны.

Программа множественного выравнивания последовательностей Muscle.

MUSCLE (Multiple Sequence Comparison by Log-Expectation) — это алгоритм для множественного выравнивания белковых последовательностей. [1]
Прежде чем говорить о работе алгоритма, стоит сказать о двух мерах сравнения расстояния при построении направляющих деревьев [1]:

  • Расстояние K-меров (Kmer distance). K-мер - непрерывная подпоследовательность длины K. Расстояние K-меров определяется долей общих K-меров двух последовательностей. Расстояние K-меров позволяет дать оценку сходства последовательностей без их выравнивания, что позволяет экономить время.
  • Расстояние Кимури (Kimura distance) - оценка сходства выравненных последовательной с поправкой на возможное множественных замен в процессе эволюции одной аминокислоты.
Работу алгоритма можно разбить на 3 основных этапа [1]:
  • Этап 1. При помощи расстояния K-меров строится бинарное дерево TREE1, где листья дерева - последовательности, а каждый узел - есть выравнивание. То есть корень дерева TREE1 является множественным выравниванием MSA1 всех Введенных последовательностей.
  • Этап 2. Источником неоптимального выравнивания на предыдущем этапе является приближенная оценка расстояний K-меров. Но после первого этапа у нас есть выравнивание: теперь мы можем воспользоваться расстоянием Кимури. Для каждой пары последовательностей из MSA1 вычисляется расстояние Кимури, на основе которого строится бинарное дерево TREE2. Как и на этапе 1, корень этого дерева является множественным выравниванием MSA2 всех последовательностей.
  • Этап 3. Выбирается ребро (начинаем с ближайшего к корню дерева). TREE2 делится на 2 поддерева путем удаления этого ребра. Новое множественное Выравнивание получается путем выравнивания профилей находящихся в корнях этих двух деревьев. Если выравнивание получилось лучше - то оно сохраняется. Этот процесс повторяется сначала до тех пор, пока выравнивание не перестает улучшаться или достигается заданный на входе предел. Таким образом мы получаем окончательное множественное выравнивание MSA3.
Стоит отметить, что можно уменьшить время выполнения алгоритма за счет отсутствия Этапа 3 - такой вариант алгоритма называется Muscle-p. Однако в этом случае стоит учитывать, что вероятность получить неоптимальное выравнивание вырастает. [1]
Именно за счет наличия нескольких этапов алгоритм Muscle дает хороший баланс между скоростью выполнения и эффективностью нахождения оптимального множественного выравнивания.

СПИСОК ЛИТЕРАТУРЫ

[1] Edgar RC. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 2004 Mar 19;32(5):1792-7.