Задание 13
Алгоритмы и программы множественного выравнивания.
Программа для сравнения:
В качестве программы для выполнения последующих заданий на сравнение выравниваний была взята программа MACHO, созданная учениками Нагорным Даниилом, Гагарочкином Виталием и Масленниковым Всеволодом.
Сравнение выравнивания одних и тех же последовательностей тремя разными программами A, B, C
Для сравнения были выбраны программы Tcoffee, Muscle и Mafft. Tcoffee был взят как референсный, так как Muscle и Mafft оба используют итеративное уточнение.
| Программа | Процент идентичных колонок | Идентичные блоки | Идентичные колонки не вошедшие в блоки |
|---|---|---|---|
| Tcoffee/Muscle | Percentage of columns in KOFE.fa identical to those of the second alignment: 51.44% | 1, 5 = 1, 5 | 11, 11 = 11, 11 |
| 20, 35 = 20, 35 | |||
| Percentage of columns in Muscle.fa identical to those of the second alignment: 52.57% | 52, 69 = 50, 67 | ||
| 76, 83 = 73, 80 | |||
| 90, 92 = 87, 89 | |||
| 100, 121 = 96, 117 | |||
| 132, 142 = 128, 138 | |||
| 147, 152 = 143, 148 | |||
| 164, 171 = 159, 166 | |||
| 252, 278 = 246, 272 | |||
| Tcoffee/Mafft | Percentage of columns in KOFE.fa identical to those of the second alignment: 56.83% | 1, 5 = 1, 5 | |
| 11, 15 = 11, 15 | |||
| Percentage of columns in mafft.fa identical to those of the second alignment: 57.25% | 17, 35 = 17, 35 | ||
| 56, 69 = 55, 68 | |||
| 76, 85 = 75, 84 | |||
| 103, 121 = 102, 120 | |||
| 130, 142 = 129, 141 | |||
| 147, 155 = 146, 154 | |||
| 163, 171 = 161, 169 | |||
| 194, 201 = 191, 198 | |||
| 252, 273 = 249, 270 | |||
Оценка результатов:
Tcoffee оказалось более похожим на Mafft, хотя отличия всё равно разительные (около 50-60% процентов колонок одинаково выравнены). При этом интересно, что с Muscle получилась идентичная колонка, не входящая в блоки. Это может означать, что такое выравнивание менее верно.
Выдача JalView:3alignments.jvp
Сравнение ручного выравнивания и MSA:
Были взяты 3 белка: 6ea9, 7wn7, 8c9k. Референсом был выбран 7wn7, так как он самый длинный из выбраных. Сначала они были выравнены путём ручного добавления необходимых гэпов, а после былло сделано выравнивание с использование Mafft.
| Выравнивание | Длина выравнивания | Процент идентичных колонок | Идентичные блоки | Идентичные колонки не входящие в блоки |
|---|---|---|---|---|
| First alignment (Rukami.fa) | 255 | 50.59% | 1, 14 = 1, 14 | 40, 40 = 40, 40 42, 42 = 42, 42 111, 111 = 108, 108 195, 195 = 195, 195 236, 236 = 241, 241 |
| 27, 28 = 27, 28 | ||||
| 47, 53 = 47, 53 | ||||
| 98, 109 = 95, 106 | ||||
| 113, 114 = 110, 111 | ||||
| 118, 125 = 115, 122 | ||||
| 128, 140 = 125, 137 | ||||
| 142, 146 = 139, 143 | ||||
| 148, 154 = 145, 151 | ||||
| 156, 158 = 153, 155 | ||||
| 171, 191 = 171, 191 | ||||
| 218, 234 = 223, 239 | ||||
| 239, 244 = 245, 250 | ||||
| 249, 255 = 254, 260 | ||||
| Second alignment (NeRukami.fa) | 260 | 49.62% |
Как видно из таблицы, выравнивания получились похожими только наполовину.
Выдача JalView:Duality.jvp
О прогорамме MAS "Mafft"
Гомологичные регионы быстро идентифицируются с помощью быстрого преобразования Фурье (БПФ). При этом аминокислотная последовательность преобразуется в последовательность, составленную из значений объема и полярности каждого аминокислотного остатка.
Предлагается упрощенная система оценки, которая хорошо справляется с сокращением времени вычислений и повышает точность выравниваний, даже для последовательностей с большими вставками или удлинениями, а также для эволюционно далеких последовательностей схожей длины.
В MAFFT реализованы две различные эвристики: прогрессивный метод (FFT-NS-2) и метод итеративного уточнения (FFT-NS-i).
Производительность FFT-NS-2 и FFT-NS-i сравнивали с другими методами с помощью компьютерного моделирования и тестирования; время вычислений для FFT-NS-2 радикально сокращено по сравнению с CLUSTALW при сопоставимой точности. FFT-NS-i более чем в 100 раз быстрее, чем T-COFFEE, когда количество входных последовательностей превышает 60, без ущерба для точности.
Литература: