Алгоритмы и программы множественного выравнивания
Сравнение выравнивания одних и тех же последовательностей разными программами
Для сравнения выравнивания последовательностей разными программами были выбраны 5 белков из домена kinase.
Полученные выравнивания в формате fasta:
Проект Jalview с тремя выравниваниями
Сравнение было выполнено с помощью команды, написанной моей однокурсницей Настей Мисюревой и дополненной некоторыми моими правками.
Программы A и B (Muscle и Mafft)
Результат записан в: AB_result.txt
Длина 1 выравнивания: 773
Длина 2 выравнивания: 1101
Найдено блоков: 6
Колонок в блоках: 34
Одиночных колонок: 0
Всего одинаковых колонок: 34
% в блоках от 1 выравнивания: 4.4
% в блоках от 2 выравнивания: 3.1
Блоки одинаково выровненных колонок:
(62,64)=(98,100)
(172,181)=(174,183)
(442,444)=(789,791)
(694,701)=(1032,1039)
(723,730)=(1061,1068)
(772,773)=(1100,1101)
Программы A и C (Muscle и Tcoffee)
Результат записан в: AC_result.txt
Длина 1 выравнивания: 773
Длина 2 выравнивания: 1165
Найдено блоков: 6
Колонок в блоках: 50
Одиночных колонок: 1
Всего одинаковых колонок: 51
% в блоках от 1 выравнивания: 6.5
% в блоках от 2 выравнивания: 4.3
Блоки одинаково выровненных колонок:
(64,70)=(100,106)
(166,178)=(158,170)
(442,444)=(845,847)
(694,701)=(1086,1093)
(720,730)=(1112,1122)
(732,739)=(1124,1131)
Одиночные одинаковые колонки:
772 1164
MAFFT и Tcoffee имеют похожие длины выравниваний, поэтому, вероятно, они имеют больше сходства между собой, чем с MUSCLE.
Сравним дополнительно программы B и C (MAFFT и Tcoffee)
Результат записан в: BC_result.txt
Длина 1 выравнивания: 1101
Длина 2 выравнивания: 1165
Найдено блоков: 42
Колонок в блоках: 518
Одиночных колонок: 9
Всего одинаковых колонок: 527
% в блоках от 1 выравнивания: 47.0
% в блоках от 2 выравнивания: 44.5
Блоки одинаково выровненных колонок:
(8,12)=(8,12)
(20,25)=(20,25)
(33,34)=(32,33)
(39,44)=(38,43)
(49,69)=(48,68)
(71,80)=(70,79)
(132,138)=(131,137)
(148,157)=(147,156)
(174,180)=(164,170)
(192,219)=(183,210)
(244,254)=(235,245)
(281,283)=(277,279)
(286,292)=(282,288)
(295,298)=(291,294)
(301,307)=(297,303)
(328,366)=(324,362)
(421,423)=(414,416)
(499,500)=(498,499)
(543,557)=(589,603)
(560,561)=(606,607)
(564,598)=(610,644)
(603,621)=(649,667)
(626,635)=(672,681)
(655,670)=(700,715)
(675,684)=(720,729)
(687,699)=(732,744)
(708,709)=(753,754)
(731,745)=(772,786)
(759,763)=(815,819)
(771,800)=(827,856)
(846,851)=(899,904)
(856,872)=(909,925)
(875,887)=(928,940)
(893,897)=(946,950)
(905,925)=(958,978)
(928,933)=(981,986)
(940,1000)=(993,1053)
(1028,1040)=(1082,1094)
(1044,1051)=(1098,1105)
(1061,1068)=(1115,1122)
(1090,1095)=(1154,1159)
(1097,1100)=(1161,1164)
Одиночные одинаковые колонки:
82 81
100 100
145 144
239 230
311 307
649 694
711 756
718 763
751 807
| Сравнение | Длина 1 | Длина 2 | Блоков | Колонок в блоках | Одиночных | Всего одинаковых колонок | % в блоках (1) | % в блоках (2) |
|---|---|---|---|---|---|---|---|---|
| MUSCLE vs MAFFT | 773 | 1101 | 6 | 34 | 0 | 34 | 4.4% | 3.1% |
| MUSCLE vs Tcoffee | 773 | 1165 | 6 | 50 | 1 | 51 | 6.5% | 4.3% |
| MAFFT vs Tcoffee | 1101 | 1165 | 42 | 518 | 9 | 527 | 47.0% | 44.5% |
Анализ
- Tcoffee сделал самое длинное выравнивание (1165 колонок)- вставляет больше гэпов
- MUSCLE создал самое короткое выравнивание (773 колонок) - меньше гэпов
- MAFFT vs Tcoffee: одинаковых колонок больше, чем при сравнении других программ, а так же доля от всей длины выравнивания, занимаемая блоками, выше
Таким образом, между собой более схожи программы MAFFT и Tcoffee.
Сравнение структурного выравнивания с выравниванием программой MSA
Для выравнивания были выбраны три белка с доменом Insulin, который рассматривался в практикуме 11:
| PDB | Chain | Entry title | Source organism |
|---|---|---|---|
| 1b9g | A | INSULIN-LIKE-GROWTH-FACTOR-1 | Homo sapiens |
| 1bom | A | THREE-DIMENSIONAL STRUCTURE OF BOMBYXIN-II, AN INSULIN-RELATED BRAIN-SECRETORY PEPTIDE OF THE SILKMOTH BOMBYX MORI: COMPARISON WITH INSULIN AND RELAXIN | Bombyx mori |
| 1efe | A | AN ACTIVE MINI-PROINSULIN, M2PI | Homo sapiens |
Проект Jalview с двумя выравниваниями
Результат записан в: result_2alig.txt
Длина 1 выравнивания (PDBeFold): 82
Длина 2 выравнивания (MUSCLE): 68
Найдено блоков: 1
Колонок в блоках: 10
Одиночных колонок: 0
Всего одинаковых колонок: 10
% в блоках от 1 выравнивания: 12.2
% в блоках от 2 выравнивания: 14.7
Блоки одинаково выровненных колонок:
(47,56)=(28,37)
- Единственный совпадающий блок в обоих выравниваниях составляет более 10% от длины каждого выравнивания.
- Выравнивание PDBeFold длиннее, так как в целом количество гэпов в нем выше.
Краткое описание программы MSA: MUSCLE
MUSCLE (от англ. MUltiple Sequence Comparison by Log‑Expectation) - программа для множественного выравнивания белковых и нуклеотидных последовательностей. Разработана Робертом Эдгаром и впервые представлена в 2004 году в журнале Nucleic Acids Research [1]
Принцип работы: Алгоритм включает быструю оценку попарных расстояний с помощью подсчёта k-меров, прогрессивное выравнивание с использованием целевой функции на основе логарифмического ожидания и итеративное уточнение с помощью зависимого от дерева перестроения профилей [1].
Сравнение с другими программами:
- Плохо выравнивает участки, встречающиеся менее чем в 20% последовательностей.[2]
- При количестве >80 последовательностей точность MUSCLE заметно снижается [2]
- В 10–100 раз быстрее ClustalW [1, 2].
- Для умеренно гомологичных последовательностей (идентичность >25%) точность MUSCLE достигает ~75%, что выше, чем у ClustalW (64,4%) [2].
Источники:
[1] Edgar R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput //Nucleic acids research. – 2004. – Т. 32. – №. 5. – С. 1792-1797.
[2] Thompson J. D. et al. A comprehensive benchmark study of multiple sequence alignment methods: current challenges and future perspectives //PloS one. – 2011. – Т. 6. – №. 3. – С. e18093.