Практикум 13. Алгоритмы и программы множественного выравнивания

Сравнение выравниваний одних и тех же последовательностей разными программами

Для последующего анализа сравнений выравниваний были выбрали последовательности с доменом Glycoside hydrolase 97, который был выбран в практикуме 11: Probable retaining alpha-galactosidase (D7CFN7), Glucan 1,4-alpha-glucosidase SusB (G8JZS4), Retaining alpha-galactosidase (Q8A6L0), Glycoside hydrolase 97 family protein (A0A031I7D5), Alpha-glucosidase (A0A066WK53).

Было проведено множественное выравнивания этих пяти последовательностей программами MAFFT, MUSCLE, TCOFFE и CLUSTALW. Затем с помощью программы, которая была сделана моими однокурсниками, был осуществлен анализ сравнения выравниваний. В качестве программы референсного выравнивания была выбрана программа MAFFT. Оставшиеся выравнивания сравнивались именно с ней.

Проект Jalview с выравниваниями (первые 5 строк — MUSCLE, вторые 5 строк — MAFFT, третьи 5 строк — TCOFFEE, последние — ClustalW).

1. Сравнение MAFFT и MUSCLE. Длина выравнивания MAFFT — 865, MUSCLE — 831. Процент совпадающих колонок у MAFFT был равен 55,84%, у MUSCLE — 58,12%. Результат представлен в таблице 1

Таблица 1. Сравнение результатов множественного выравнивания программами MAFFT и MUSCLE. Показан пронумерованный список блоков одинаково выровненных колонок в обоих выравниваниях.
Block MAFFT MUSCLE
142-4833-39
270-9177-98
3117-120123-126
4131-158137-164
5170-180176-186
6192-211198-217
7257-261252-256
8270-304264-298
9307-309301-303
10332-340324-332
11351-405338-392
12411-419398-406
13434-443421-430
14451-461438-448
15485-488466-469
16499-515482-498
17551-569534-552
18573-578556-561
19582-631565-614
20641-670621-650
21694-755670-731
22763-801739-777
23827-842798-813

Как видно из таблицы 1, общее количество совпадающих блоков равно 23. Сдвиг при выравнивании колонок произошел сразу на первой позиции, поэтому все последующие блоки оказались не равными между собой. Список одинаково выровненных колонок вне блока (первое число — колонка в выравнивании MAFFT, второе — MUSCLE): 164-170, 263-258, 426-413, 464-451, 691-667, 813-784.

2. Сравнение MAFFT и CLUSTALW. Длина выравнивания MAFFT — 865, CLUSTALW — 816. Процент совпадающих колонок для выравнивания MAFFT — 51,56%, CLUSTALW — 54,66%. Результат представлен в таблице 2.

Таблица 2. Сравнение результатов множественного выравнивания программами MAFFT и CLUSTALW. Показан пронумерованный список блоков одинаково выровненных колонок в обоих выравниваниях.
Block MAFFT CLUSTALW
1 1-4 1-4
2 42-48 44-50
3 69-91 71-93
4 131-180 132-181
5 269-291 264-286
6 294-312 289-307
7 339-350
8 367-385 355-373
9 389-401 377-389
10 451-461 436-446
11 551-560 520-529
12 564-569 533-538
13 573-631 542-600
14 645-670 611-636
15 694-723 656-685
16 726-778 688-740
17 788-800 750-762
18 827-844 784-801

В представленом сравнении выравниваний оказалось меньше всего блоков по количеству. Однако процент выровненных колонок не уступает Muscle и T-Coffee. Список одинаково выровненных колонок вне блока (первое число — колонка в выравнивании MAFFT, второе — ClustalW): 98-100, 426-414, 433-421, 812-769, 848-805.

3. Сравнение MAFFT и T-COFFEE. Длина выравнивания MAFFT — 865, T-COFFE — 837. Процент совпадающих колонок у программы MAFFT был равен 54,80%, в то время как у T-COFFE — 56,63%. результаты представлены в таблице 3.

Таблица 3. Сравнение результатов множественного выравнивания программами MAFFT и T-COFFEE. Показан пронумерованный список блоков одинаково выровненных колонок в обоих выравниваниях.
Block MAFFT T-COFFEE
1 39-41 39-41
2 43-48 43-48
3 50-52 50-52
4 69-91 69-91
5 131-161 130-160
6 164-167 163-166
7 170-180 169-179
8 195-211 194-210
9 233-236 233-236
10 275-304 273-302
11 307-312 305-310
12 351-401 342-392
13 451-461 439-449
14 499-515 485-501
15 551-559 539-547
16 573-579 561-567
17 582-631 570-619
18 644-670 629-655
19 694-755 675-736
20 760-783 741-764
21 789-802 770-783
22 827-844 803-820

Из таблицы 3 можно заметить, что вначале одинаково выровненные блоки совпадают как у MAFFT, так и у T-Coffee. Затем пошли различия. Список одинаково выровненных колонок вне блока (первое число — колонка в выравнивании MAFFT, второе — T-Coffee): 65-65, 98-98, 117-117, 191-190, 221-221, 412-403, 563-551, 573-561, 579-567, 638-623, 641-626, 668-669.

Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA

Для анализа был выбран домен PF00030 (Beta/Gamma crystallin). Кристаллины представляют собой группу водорастворимых структурных белков, которые в высокой концентрации присутствуют в хрусталике и роговице глаза. Были выбраны белки c PDB ID 1AMM (из организма Bos taurus), 1HK0 (из Homo sapiens) и 1A45 (также из орагнизма Bos taurus). Мне было интересно сравнить два бычьих кристаллина с человеческим, поэтому в качестве референса был выбран 1HK0. Было проведено два множественных выравнивания: выравнивание по совмещению структур выбранных трех белков и с помощью программы MAFFT. Выравнивание по совмещению структур осуществлялось с помощью алгоритма TM-align на сайте PDB.

Проект Jalview с выравниванием по совмещению структур (первые три строчки) и с помощью программы MAFFT (последние три строчки). Сравнение выравниваний проводился так же с помощью программы, сделанной моими однокурсниками. По данным из таблицы 4, оба множественных выравнивания довольно хорошо совпадают и имеют большое количество одинаково выровненных колонок. Из изображения совмещения структур (рис. 1) и из множественного выравнивания по совмещению структур видно, что данные белки имеют высоко консервативную вторичную структуру и имеют очень много схожих участков, поэтому данные белки гомологичны по всей длине. Вариабельные участки наблюдаются в петлевых доменах белка. Из выравнивания, осуществленного программой MAFFT, можно сделать точно такой же вывод о гомологичности данных белков.

Таблица 4. Сравнение результатов множественного выравнивания по совмещению структур (PDB Alignment) и программой MAFFT. Показан пронумерованный список блоков одинаково выровненных колонок в обоих выравниваниях.
Block PDB Alignment MAFFT
1 1-82 1-82
2 87-116 87-116
3 122-175 121-174
Картинка
Рисунок 1. Наложение пространственныхструктур трех белковых последовательностей. Зеленым цветом обозначен 1A45, розовым — 1HK0, голубым — 1AMM.

Краткое описание программы MUSCLE

Программа для проведения множественных выравниваний MUSCLE работает в три этапа, суть которых состоит в постепенном улучшении точности предсказанного выравнивания.

Первый этап заключается в проведении парных выравниваний между всеми последовательностями. Сначала программа оценивает сходство между всеми последовательностями, сравнивая короткие фрагменты (k-меры). На основе этих данных строится приблизительное дерево родства с помощью метода UPGMA. Затем выполняется предварительное, или черновое, выравнивание, где последовательности постепенно объединяются согласно этому дереву (от самых схожих к менее схожим).

Второй этап состоит в постройке второго, более улучшенного направляющего дерева. Теперь программа использует уже выровненные последовательности, чтобы более точно пересчитать расстояния между ними. Для оценки расстояния между ними испольуется так называемый метод Кимуры. Строится новое, более точное направляющее дерево. Выполняется повторное выравнивание, но только для тех частей дерева, где изменился порядок соединения последовательностей.

На третьем этапе программа анализирует полученное выравнивание и пытается его улучшить. Для этого она по очереди "разрезает" дерево на части и пробует перевыровнить эти части заново. Если новое выравнивание лучше (по специальной оценке), оно сохраняется. Этот процесс повторяется до тех пор, пока выравнивание не перестанет улучшаться.

Источник: Robert C. Edgar. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research, Volume 32, Issue 5, 1 March 2004, Pages 1792–1797, https://doi.org/10.1093/nar/gkh340