Практикум 12

Для выравнивания были выбраны последовательности, рассмотренные в практикуме 11, а именно последовательности домена PF00079, образующие блок (см. практикум 11: Максимальный достоверный блок, включающий не все последовательности — МДБ-notAll). Для сравнения выравниваний были взяты программы Muscle, MAFFT и T-coffee. За образец был взят результат работы программы Muscle. Для сравнения выравниваний использовался код Елены Гончаровой.

Проект в Jalview с 3 выравниваниями fasta Muscle fasta MAFFT fasta T-coffee

Сравнение Muscle и MAFFT

Совпадающие участки (блоки)
№	Muscle	MAFFT	Длина блока
1	(1,14)	(1,14)	14
2	(23,25)	(21,23)	3
3	(30,53)	(33,56)	24
4	(79,81)	(83,85)	3
5	(83,84)	(87,88)	2
6	(88,91)	(92,95)	4
7	(135,161)	(131,157)	27
8	(178,196)	(174,192)	19
9	(201,236)	(197,232)	36
10	(263,274)	(261,272)	12
11	(282,293)	(280,291)	12
12	(331,346)	(333,348)	16
13	(350,357)	(352,359)	8
14	(367,369)	(371,373)	3
15	(382,384)	(387,389)	3
16	(389,406)	(394,411)	18
17	(430,460)	(451,481)	31

Длина выравнивания Muscle: 460

Длина выравнивания MAFFT: 481

Совпадающих колонок: 237

% совпадающих колонок выравнивания Muscle: 51.5%

% совпадающих колонок выравнивания MAFFT: 49.3%

Всего блоков: 17

Максимальная длина блока: 36 а.к.

Сравнение Muscle и T-coffee

Совпадающие участки (блоки)
№	Muscle	T-coffee	Длина блока
1	(1,14)	(1,14)	14
2	(23,24)	(26,27)	2
3	(29,57)	(32,60)	29
4	(74,83)	(78,87)	10
5	(88,91)	(94,97)	4
6	(96,104)	(102,110)	9
7	(131,161)	(130,160)	31
8	(173,194)	(172,193)	22
9	(201,223)	(200,222)	23
10	(226,233)	(225,232)	8
11	(241,252)	(240,251)	12
12	(260,271)	(260,271)	12
13	(284,294)	(284,294)	11
14	(331,341)	(337,347)	11
15	(345,346)	(352,353)	2
16	(349,356)	(356,363)	8
17	(364,370)	(371,377)	7
18	(389,412)	(397,420)	24
19	(427,440)	(437,450)	14
20	(444,447)	(454,457)	4
21	(451,460)	(461,470)	10

Длина выравнивания Muscle: 460

Длина выравнивания T-coffee: 470

Совпадающих колонок: 271

% совпадающих колонок выравнивания Muscle: 58.9%

% совпадающих колонок выравнивания T-coffee: 57.7%

Всего блоков: 21

Наибольшая длина блока: 31 а.к.

В результате попарного сравнения результатов выравниваний MAFFT и T-coffee с Muscle можно сделать вывод, что все три выравнивания в какой-то степени похожи. На мой взгляд, T-coffee больше схоже с выравниванием Muscle, чем выравнивание MAFFT. У данной пары выравниваний больше совпадающих колонок, больше блоков, а разница между длинами выравниваний меньше. В то же время выравнивание MAFFT также имеет немало совпадающих колонок с Muscle, при этом в данной паре в среднем находились блоки большей длины, что также может говорить об уровне схожести обеих программ.

Сравнение Muscle и PDBeFold

Для выполнения структурного выравнивания были использованы последовательности А цепей домена семейства серпинов PF00079 трёх белков: Alpha-1-antitrypsin (1atu), Alpha-1-antichymotrypsin (1as4) и Plasminogen activator inhibitor-2 (1by7).

fasta PDBeFold fasta Muscle Проект в Jalview

Рис. 1. Совмещение 3D-структур белков (розовый — 1atu:A, бирюзовый — 1as4:A, жёлтый — 1by7:A)

Совпадающие участки (блоки)
№	Muscle	PDBeFold	Длина блока
1	(1,64)	(1,64)	64
2	(71,101)	(72,102)	31
3	(116,125)	(125,134)	10
4	(131,147)	(141,157)	17
5	(154,182)	(167,195)	29
6	(188,204)	(203,219)	17
7	(220,241)	(235,256)	22
8	(246,247)	(261,262)	2
9	(250,256)	(265,271)	7
10	(282,338)	(301,357)	57
11	(385,387)	(404,406)	3

Длина выравнивания Muscle: 387

Длина выравнивания PDBeFold: 406

Совпадающих колонок: 259

% совпадающих колонок выравнивания Muscle: 66.9%

% совпадающих колонок выравнивания PDBeFold: 63.8%

Всего блоков: 11

Было установлено, что выравнивания PDBeFold и Muscle достаточно похожи. В результате работы скрипта было найдено довольно много совпадающих колонок и 11 блоков совпадения, среди которых выделяются четыре достаточно больших участка: 1–64 (длина 64), 71–101 (длина 31), 154–182 (длина 29), 282–338 (длина 57), которые соответствуют структурно-консервативным участкам.

Также были проверены крупные несовпадающие участки, а именно: 103–124, 220–234, 272–300 и 358–403. В большинстве своём данные участки соответствуют петлям (участкам между альфа-спиралями и бета-тяжами, не имеющим регулярной вторичной структуры), которые также не сошлись в PDBeFold, что, вероятно, легко связать с высокой вариабельностью данных участков.

Но также, что более интересно, участки 272–300 и 358–403 помимо участков петель захватывают небольшие участки консервативных бета-тяжей. Это, вероятно, можно связать с тем, что Muscle старается выравнивать с меньшим количеством гэпов и инделей, чем другие выравнивания, а PDBeFold, наоборот, вставляет их больше. Что особенно чётко видно по С-концу и по длине итогового выравнивания, которое получилось больше, чем у Muscle.

PRANK

PRANK — программа для множественного выравнивания нуклеотидных, белковых и кодоновых последовательностей [1]. Она разработана Ари Лёйтыноя и Ником Голдманом в Европейском институте биоинформатики. В отличие от других программ выравнивания, PRANK использует филогенетическую информацию для различения гэпов, возникших вследствие инсерций и делеций, и обрабатывает эти два типа событий по-разному [1], [3].

Принцип работы

PRANK реализует прогрессивный алгоритм выравнивания, опирающийся на направляющее дерево [2]. Стандартные прогрессивные программы часто не так сильно учитывают филогению, из-за чего гэпы становятся эволюционно неосмысленными. PRANK же различает инсерции и делеции и корректно обрабатывает их уже в ходе прогрессивного выравнивания [2], [3]. Также PRANK способен реконструировать предковые последовательности и маркировать гэпы в выравнивании в зависимости от их происхождения — инсерция это или делеция [3].

Ограничения

PRANK чувствителен к ошибкам в направляющей филогении, а также к нарушениям исходных предположений о происхождении гэпов [3]. Кроме того, как и все строго прогрессивные методы, PRANK сильно зависит от качества переданного направляющего дерева — в отличие от итеративных программ, которые могут уточнять выравнивание на нескольких проходах [5]. Также одним из важных ограничений PRANK является его вычислительная сложность. В отличие от Muscle или MAFFT, которые оптимизированы для работы с большими наборами данных, PRANK работает значительно медленнее (примерно в 500 раз медленнее MAFFT) [2].

Позже для уменьшения ограничений алгоритм был переработан и реализован в программе PAGAN. PAGAN использует графы последовательностей, моделирует более сложные структуры гэпов и учитывает неопределённость при реконструкции предковых последовательностей [4].

Заключение

PRANK представляет собой удобную программу для множественного выравнивания. Его основное достоинство — учёт филогении и получение «более эволюционных» выравниваний. Его основной недостаток — зависимость от качества филогенетического дерева и низкая скорость работы. Однако при наличии надёжного дерева PRANK может давать более биологически интерпретируемые результаты по сравнению с традиционными программами, такими как Muscle или MAFFT [3], [5].

Список источников

Löytynoja A, Goldman N. An algorithm for progressive multiple alignment of sequences with insertions. Proc Natl Acad Sci USA. 2005;102(30):10557–10562.
Szalkowski AM. Fast and robust multiple sequence alignment with phylogeny-aware gap placement. BMC Bioinformatics. 2012;13:129.
Löytynoja A. Phylogeny-aware alignment with PRANK. In: Russell D, ed. Multiple Sequence Alignment Methods. Methods in Molecular Biology, vol. 1079. Humana Press; 2014.
Löytynoja A. Phylogeny-aware alignment with PRANK and PAGAN. Methods Mol Biol. 2021;2231.
Dessimoz C, Gil M. Phylogenetic assessment of alignments reveals neglected tree signal in gaps. Genome Biol. 2010;11(4):R37.