Задание 13

Алгоритмы и программы множественного выравнивания.

Домен AC = PF04766

Программа для сравнения:

В качестве программы для выполнения последующих заданий на сравнение выравниваний была взята программа MACHO, созданная учениками Нагорным Даниилом, Гагарочкином Виталием и Масленниковым Всеволодом.

Сравнение выравнивания одних и тех же последовательностей тремя разными программами A, B, C

Для сравнения были выбраны программы Tcoffee, Muscle и Mafft. Tcoffee был взят как референсный, так как Muscle и Mafft оба используют итеративное уточнение.

Программа Процент идентичных колонок Идентичные блоки Идентичные колонки не вошедшие в блоки
Tcoffee/Muscle Percentage of columns in KOFE.fa identical to those of the second alignment: 51.44% 1, 5 = 1, 5 11, 11 = 11, 11
20, 35 = 20, 35
Percentage of columns in Muscle.fa identical to those of the second alignment: 52.57% 52, 69 = 50, 67
76, 83 = 73, 80
90, 92 = 87, 89
100, 121 = 96, 117
132, 142 = 128, 138
147, 152 = 143, 148
164, 171 = 159, 166
252, 278 = 246, 272
Tcoffee/Mafft Percentage of columns in KOFE.fa identical to those of the second alignment: 56.83% 1, 5 = 1, 5
11, 15 = 11, 15
Percentage of columns in mafft.fa identical to those of the second alignment: 57.25% 17, 35 = 17, 35
56, 69 = 55, 68
76, 85 = 75, 84
103, 121 = 102, 120
130, 142 = 129, 141
147, 155 = 146, 154
163, 171 = 161, 169
194, 201 = 191, 198
252, 273 = 249, 270

Оценка результатов:

Tcoffee оказалось более похожим на Mafft, хотя отличия всё равно разительные (около 50-60% процентов колонок одинаково выравнены). При этом интересно, что с Muscle получилась идентичная колонка, не входящая в блоки. Это может означать, что такое выравнивание менее верно.

Выдача JalView:3alignments.jvp

Сравнение ручного выравнивания и MSA:

Были взяты 3 белка: 6ea9, 7wn7, 8c9k. Референсом был выбран 7wn7, так как он самый длинный из выбраных. Сначала они были выравнены путём ручного добавления необходимых гэпов, а после былло сделано выравнивание с использование Mafft.

Выравнивание Длина выравнивания Процент идентичных колонок Идентичные блоки Идентичные колонки не входящие в блоки
First alignment (Rukami.fa) 255 50.59% 1, 14 = 1, 14
40, 40 = 40, 40
42, 42 = 42, 42
111, 111 = 108, 108
195, 195 = 195, 195
236, 236 = 241, 241
27, 28 = 27, 28
47, 53 = 47, 53
98, 109 = 95, 106
113, 114 = 110, 111
118, 125 = 115, 122
128, 140 = 125, 137
142, 146 = 139, 143
148, 154 = 145, 151
156, 158 = 153, 155
171, 191 = 171, 191
218, 234 = 223, 239
239, 244 = 245, 250
249, 255 = 254, 260
Second alignment (NeRukami.fa) 260 49.62%

Как видно из таблицы, выравнивания получились похожими только наполовину.

...
Совмещение структур
Оранжевый - 7wn7, Зелёный - 6ea9, Синий - 8c9k

Выдача JalView:Duality.jvp

О прогорамме MAS "Mafft"

Гомологичные регионы быстро идентифицируются с помощью быстрого преобразования Фурье (БПФ). При этом аминокислотная последовательность преобразуется в последовательность, составленную из значений объема и полярности каждого аминокислотного остатка.

Предлагается упрощенная система оценки, которая хорошо справляется с сокращением времени вычислений и повышает точность выравниваний, даже для последовательностей с большими вставками или удлинениями, а также для эволюционно далеких последовательностей схожей длины.

В MAFFT реализованы две различные эвристики: прогрессивный метод (FFT-NS-2) и метод итеративного уточнения (FFT-NS-i).

Производительность FFT-NS-2 и FFT-NS-i сравнивали с другими методами с помощью компьютерного моделирования и тестирования; время вычислений для FFT-NS-2 радикально сокращено по сравнению с CLUSTALW при сопоставимой точности. FFT-NS-i более чем в 100 раз быстрее, чем T-COFFEE, когда количество входных последовательностей превышает 60, без ущерба для точности.

Литература:

Katoh K, Misawa K, Kuma K, Miyata T. MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform. Nucleic Acids Res. 2002 Jul 15;30(14):3059-66. doi: 10.1093/nar/gkf436. PMID: 12136088; PMCID: PMC135756.