Практикум 12

Для выравнивания были выбраны последовательности, рассмотренные в практикуме 11, а именно последовательности домена PF00079, образующие блок (см. практикум 11: Максимальный достоверный блок, включающий не все последовательности — МДБ-notAll). Для сравнения выравниваний были взяты программы Muscle, MAFFT и T-coffee. За образец был взят результат работы программы Muscle. Для сравнения выравниваний использовался код Елены Гончаровой.

Проект в Jalview с 3 выравниваниями fasta Muscle fasta MAFFT fasta T-coffee

Сравнение Muscle и MAFFT

Совпадающие участки (блоки)
MuscleMAFFTДлина блока
1(1,14)(1,14)14
2(23,25)(21,23)3
3(30,53)(33,56)24
4(79,81)(83,85)3
5(83,84)(87,88)2
6(88,91)(92,95)4
7(135,161)(131,157)27
8(178,196)(174,192)19
9(201,236)(197,232)36
10(263,274)(261,272)12
11(282,293)(280,291)12
12(331,346)(333,348)16
13(350,357)(352,359)8
14(367,369)(371,373)3
15(382,384)(387,389)3
16(389,406)(394,411)18
17(430,460)(451,481)31

Длина выравнивания Muscle: 460

Длина выравнивания MAFFT: 481

Совпадающих колонок: 237

% совпадающих колонок выравнивания Muscle: 51.5%

% совпадающих колонок выравнивания MAFFT: 49.3%

Всего блоков: 17

Максимальная длина блока: 36 а.к.


Сравнение Muscle и T-coffee

Совпадающие участки (блоки)
MuscleT-coffeeДлина блока
1(1,14)(1,14)14
2(23,24)(26,27)2
3(29,57)(32,60)29
4(74,83)(78,87)10
5(88,91)(94,97)4
6(96,104)(102,110)9
7(131,161)(130,160)31
8(173,194)(172,193)22
9(201,223)(200,222)23
10(226,233)(225,232)8
11(241,252)(240,251)12
12(260,271)(260,271)12
13(284,294)(284,294)11
14(331,341)(337,347)11
15(345,346)(352,353)2
16(349,356)(356,363)8
17(364,370)(371,377)7
18(389,412)(397,420)24
19(427,440)(437,450)14
20(444,447)(454,457)4
21(451,460)(461,470)10

Длина выравнивания Muscle: 460

Длина выравнивания T-coffee: 470

Совпадающих колонок: 271

% совпадающих колонок выравнивания Muscle: 58.9%

% совпадающих колонок выравнивания T-coffee: 57.7%

Всего блоков: 21

Наибольшая длина блока: 31 а.к.

В результате попарного сравнения результатов выравниваний MAFFT и T-coffee с Muscle можно сделать вывод, что все три выравнивания в какой-то степени похожи. На мой взгляд, T-coffee больше схоже с выравниванием Muscle, чем выравнивание MAFFT. У данной пары выравниваний больше совпадающих колонок, больше блоков, а разница между длинами выравниваний меньше. В то же время выравнивание MAFFT также имеет немало совпадающих колонок с Muscle, при этом в данной паре в среднем находились блоки большей длины, что также может говорить об уровне схожести обеих программ.


Сравнение Muscle и PDBeFold

Для выполнения структурного выравнивания были использованы последовательности А цепей домена семейства серпинов PF00079 трёх белков: Alpha-1-antitrypsin (1atu), Alpha-1-antichymotrypsin (1as4) и Plasminogen activator inhibitor-2 (1by7).

fasta PDBeFold fasta Muscle Проект в Jalview
Выравнивание
Рис. 1. Совмещение 3D-структур белков (розовый — 1atu:A, бирюзовый — 1as4:A, жёлтый — 1by7:A)
Совпадающие участки (блоки)
MusclePDBeFoldДлина блока
1(1,64)(1,64)64
2(71,101)(72,102)31
3(116,125)(125,134)10
4(131,147)(141,157)17
5(154,182)(167,195)29
6(188,204)(203,219)17
7(220,241)(235,256)22
8(246,247)(261,262)2
9(250,256)(265,271)7
10(282,338)(301,357)57
11(385,387)(404,406)3

Длина выравнивания Muscle: 387

Длина выравнивания PDBeFold: 406

Совпадающих колонок: 259

% совпадающих колонок выравнивания Muscle: 66.9%

% совпадающих колонок выравнивания PDBeFold: 63.8%

Всего блоков: 11

Было установлено, что выравнивания PDBeFold и Muscle достаточно похожи. В результате работы скрипта было найдено довольно много совпадающих колонок и 11 блоков совпадения, среди которых выделяются четыре достаточно больших участка: 1–64 (длина 64), 71–101 (длина 31), 154–182 (длина 29), 282–338 (длина 57), которые соответствуют структурно-консервативным участкам.

Также были проверены крупные несовпадающие участки, а именно: 103–124, 220–234, 272–300 и 358–403. В большинстве своём данные участки соответствуют петлям (участкам между альфа-спиралями и бета-тяжами, не имеющим регулярной вторичной структуры), которые также не сошлись в PDBeFold, что, вероятно, легко связать с высокой вариабельностью данных участков.

Но также, что более интересно, участки 272–300 и 358–403 помимо участков петель захватывают небольшие участки консервативных бета-тяжей. Это, вероятно, можно связать с тем, что Muscle старается выравнивать с меньшим количеством гэпов и инделей, чем другие выравнивания, а PDBeFold, наоборот, вставляет их больше. Что особенно чётко видно по С-концу и по длине итогового выравнивания, которое получилось больше, чем у Muscle.


PRANK

PRANK — программа для множественного выравнивания нуклеотидных, белковых и кодоновых последовательностей [1]. Она разработана Ари Лёйтыноя и Ником Голдманом в Европейском институте биоинформатики. В отличие от других программ выравнивания, PRANK использует филогенетическую информацию для различения гэпов, возникших вследствие инсерций и делеций, и обрабатывает эти два типа событий по-разному [1], [3].

Принцип работы

PRANK реализует прогрессивный алгоритм выравнивания, опирающийся на направляющее дерево [2]. Стандартные прогрессивные программы часто не так сильно учитывают филогению, из-за чего гэпы становятся эволюционно неосмысленными. PRANK же различает инсерции и делеции и корректно обрабатывает их уже в ходе прогрессивного выравнивания [2], [3]. Также PRANK способен реконструировать предковые последовательности и маркировать гэпы в выравнивании в зависимости от их происхождения — инсерция это или делеция [3].

Ограничения

PRANK чувствителен к ошибкам в направляющей филогении, а также к нарушениям исходных предположений о происхождении гэпов [3]. Кроме того, как и все строго прогрессивные методы, PRANK сильно зависит от качества переданного направляющего дерева — в отличие от итеративных программ, которые могут уточнять выравнивание на нескольких проходах [5]. Также одним из важных ограничений PRANK является его вычислительная сложность. В отличие от Muscle или MAFFT, которые оптимизированы для работы с большими наборами данных, PRANK работает значительно медленнее (примерно в 500 раз медленнее MAFFT) [2].

Позже для уменьшения ограничений алгоритм был переработан и реализован в программе PAGAN. PAGAN использует графы последовательностей, моделирует более сложные структуры гэпов и учитывает неопределённость при реконструкции предковых последовательностей [4].

Заключение

PRANK представляет собой удобную программу для множественного выравнивания. Его основное достоинство — учёт филогении и получение «более эволюционных» выравниваний. Его основной недостаток — зависимость от качества филогенетического дерева и низкая скорость работы. Однако при наличии надёжного дерева PRANK может давать более биологически интерпретируемые результаты по сравнению с традиционными программами, такими как Muscle или MAFFT [3], [5].

Список источников

  1. Löytynoja A, Goldman N. An algorithm for progressive multiple alignment of sequences with insertions. Proc Natl Acad Sci USA. 2005;102(30):10557–10562.
  2. Szalkowski AM. Fast and robust multiple sequence alignment with phylogeny-aware gap placement. BMC Bioinformatics. 2012;13:129.
  3. Löytynoja A. Phylogeny-aware alignment with PRANK. In: Russell D, ed. Multiple Sequence Alignment Methods. Methods in Molecular Biology, vol. 1079. Humana Press; 2014.
  4. Löytynoja A. Phylogeny-aware alignment with PRANK and PAGAN. Methods Mol Biol. 2021;2231.
  5. Dessimoz C, Gil M. Phylogenetic assessment of alignments reveals neglected tree signal in gaps. Genome Biol. 2010;11(4):R37.