Практикум 11: Алгоритмы и программы множественного выравнивания. Базы гомологичных доменов


1. Сравните выравнивания одних и тех же последовательностей тремя разными программами


Для сравнения работы программ множественного выравнивания Muscle, Mafft и T-Coffee были взяты последовательности ACNA_STAAS, ACNA_RICPR, ACNA_SALTY, ACNA_MYCTU и ACNA_CORGL из практикума 9. В данном практикуме уже проводилось их выравнивание программой Muscle, поэтому в данном практикуме было решено сравнить попарно выравнивания Muscle и Mafft, Muscle и T-Coffee, т.е. выравнивание Muscle было взято в качестве референсного. Для сравнения выравниваний была использована программа, написанная Ксенией Кирцовой.

Результаты сравнения выравниваний Muscle и Mafft. Длина выравнивания Muscle - 959, Mafft - 975, проценты выровненных колонок - 97.91 и 96.31 соответственно. Список блоков одинаково выровненных колонок:

Блок 1 (14-31) (16-33)

Блок 2 (44-60) (49-65)

Блок 3 (63-64) (68-69)

Блок 4 (67-78) (72-83)

Блок 5 (85-397) (90-402)

Блок 6 (403-406) (408-411)

Блок 7 (476-632) (491-647)

Блок 8 (636-637) (651-652)

Блок 9 (641-712) (656-727)

Блок 10 (715-791) (730-806)

Блок 11 (794-801) (809-816)

Блок 12 (805-900) (820-915)

Блок 13 (910-959) (926-975)

Одна из колонок выровнялась одинаково, но не вошла в блок: (803) (818). Итого в выравнивании Mafft с референсным выравниванием Muscle совпадают 737 позиций. Проект JalView с двумя выравниваниями вы можете посмотреть по ссылке


Результаты сравнения выравниваний Muscle и T-Coffee. Длина выравнивания Muscle - 959, T-Coffee - 965, проценты выровненных колонок - 97.91 и 97.31 соответственно. Список блоков одинаково выровненных колонок:

Блок 1 (15-31) (17-33)

Блок 2 (40-61) (42-63)

Блок 3 (63-65) (65-67)

Блок 4 (67-82) (69-84)

Блок 5 (85-201) (87-203)

Блок 6 (203-205) (205-207)

Блок 7 (207-362) (209-364)

Блок 8 (365-402) (367-404)

Блок 9 (470-632) (475-637)

Блок 10 (635-637) (640-642)

Блок 11 (640-658) (645-663)

Блок 12 (661-712) (666-717)

Блок 13 (715-897) (720-902)

Блок 14 (910-955) (916-961)

Итого в выравнивании T-Coffee с референсным выравниванием Muscle совпадают 838 позиций. Сравнивая проценты совпадения выравниваний T-Coffee и Mafft соответственно с выравниванием Muscle, можно сделать вывод, что сходство выравнивания T-Coffee с выравниванием Muscle больше, чем сходство выравнивания Mafft с выравниванием Muscle. Проект JalView с двумя выравниваниями вы можете посмотреть по ссылке




2. Построение выравнивания по совмещению структур и сравнение его с выравниванием программой Muscle


Были выбраны 3 белка, имеющие домены из суперсемейства Protein kinase-like domain: CALMODULIN-DEPENDENT PROTEIN KINASE FROM RAT (AC в PDB: 1a06), THE COMPLEX STRUCTURE OF THE MAP KINASE P38/SB203580 (AC в PDB: 1a9u) и HUMAN CYCLIN-DEPENDENT KINASE 2 (AC в PDB: 1b38). С помощью инструмента Pairwise Structure Alignment в PDB (программа TAlign) было построено 3D-выравнивание этих белков, которое вы можете видеть ниже:

Рисунок 1. Выравнивание пространственных структур трех выбранных белков


Затем в визуализаторе JalView было сделано выравнивание этих же трех белковых последовательностей программой Muscle. Проект JalView с загруженным выравниванием пространственных структур (окно struct_align_3d.txt) и сделанным Muscle выравниванием (окно MuscleWS Alignment of Cut and Paste Input) вы можете увидеть по ссылке.

Выравнивание по совмещению структур длиннее, чем выравнивание Mascle (403 против 364), а также имеет меньшкю степень консервативности, чем выравнивание Muscle. Однако выравнивание по совмещению структур можно считать эволюционно более достоверным, так как оно располагает друг под другом аминокислотные остатки, которые в белках находятся в составе одних и тех же структурных элементов, выполняющих, скорее всего, в белках одну и ту же функцию и наиболее вероятно имеющих общее происхождение.


3. Описание программы MAFFT - одной из программ множественного выравнивания (MSA)


MAFFT - программа MSA, разработанная в 2002 году японскими учеными (эта и дальнейшая информация о программе, даваемая мной на этой веб-странице, основана на статье, опубликованной разработчиками программы). Гомологичные области быстро идентифицируются программой с помощью быстрого преобразования Фурье (FFT), при котором аминокислотная последовательность преобразуется в последовательность, состоящую из значений объема и полярности каждого аминокислотного остатка. MAFFT использует упрощенную систему подсчета очков счета выравнивания, которая хорошо работает для сокращения процессорного времени и повышения точности выравниваний. В MAFFT реализованы две разные эвристики: прогрессивный метод (FFT-NS-2) и метод итеративного уточнения (FFT-NS-i). Скорость работы MAFFFT значительно выше, чем у многих других алгоритмов MSA (например, CLUSTALW и T-COFFEE), при этом точность сопоставима с другими алгоритмами.