Для выравнивания были выбраны последовательности, рассмотренные в практикуме 11, а именно последовательности домена PF00079, образующие блок (см. практикум 11: Максимальный достоверный блок, включающий не все последовательности — МДБ-notAll). Для сравнения выравниваний были взяты программы Muscle, MAFFT и T-coffee. За образец был взят результат работы программы Muscle. Для сравнения выравниваний использовался код Елены Гончаровой.
| Совпадающие участки (блоки) | |||
|---|---|---|---|
| № | Muscle | MAFFT | Длина блока |
| 1 | (1,14) | (1,14) | 14 |
| 2 | (23,25) | (21,23) | 3 |
| 3 | (30,53) | (33,56) | 24 |
| 4 | (79,81) | (83,85) | 3 |
| 5 | (83,84) | (87,88) | 2 |
| 6 | (88,91) | (92,95) | 4 |
| 7 | (135,161) | (131,157) | 27 |
| 8 | (178,196) | (174,192) | 19 |
| 9 | (201,236) | (197,232) | 36 |
| 10 | (263,274) | (261,272) | 12 |
| 11 | (282,293) | (280,291) | 12 |
| 12 | (331,346) | (333,348) | 16 |
| 13 | (350,357) | (352,359) | 8 |
| 14 | (367,369) | (371,373) | 3 |
| 15 | (382,384) | (387,389) | 3 |
| 16 | (389,406) | (394,411) | 18 |
| 17 | (430,460) | (451,481) | 31 |
Длина выравнивания Muscle: 460
Длина выравнивания MAFFT: 481
Совпадающих колонок: 237
% совпадающих колонок выравнивания Muscle: 51.5%
% совпадающих колонок выравнивания MAFFT: 49.3%
Всего блоков: 17
Максимальная длина блока: 36 а.к.
| Совпадающие участки (блоки) | |||
|---|---|---|---|
| № | Muscle | T-coffee | Длина блока |
| 1 | (1,14) | (1,14) | 14 |
| 2 | (23,24) | (26,27) | 2 |
| 3 | (29,57) | (32,60) | 29 |
| 4 | (74,83) | (78,87) | 10 |
| 5 | (88,91) | (94,97) | 4 |
| 6 | (96,104) | (102,110) | 9 |
| 7 | (131,161) | (130,160) | 31 |
| 8 | (173,194) | (172,193) | 22 |
| 9 | (201,223) | (200,222) | 23 |
| 10 | (226,233) | (225,232) | 8 |
| 11 | (241,252) | (240,251) | 12 |
| 12 | (260,271) | (260,271) | 12 |
| 13 | (284,294) | (284,294) | 11 |
| 14 | (331,341) | (337,347) | 11 |
| 15 | (345,346) | (352,353) | 2 |
| 16 | (349,356) | (356,363) | 8 |
| 17 | (364,370) | (371,377) | 7 |
| 18 | (389,412) | (397,420) | 24 |
| 19 | (427,440) | (437,450) | 14 |
| 20 | (444,447) | (454,457) | 4 |
| 21 | (451,460) | (461,470) | 10 |
Длина выравнивания Muscle: 460
Длина выравнивания T-coffee: 470
Совпадающих колонок: 271
% совпадающих колонок выравнивания Muscle: 58.9%
% совпадающих колонок выравнивания T-coffee: 57.7%
Всего блоков: 21
Наибольшая длина блока: 31 а.к.
В результате попарного сравнения результатов выравниваний MAFFT и T-coffee с Muscle можно сделать вывод, что все три выравнивания в какой-то степени похожи. На мой взгляд, T-coffee больше схоже с выравниванием Muscle, чем выравнивание MAFFT. У данной пары выравниваний больше совпадающих колонок, больше блоков, а разница между длинами выравниваний меньше. В то же время выравнивание MAFFT также имеет немало совпадающих колонок с Muscle, при этом в данной паре в среднем находились блоки большей длины, что также может говорить об уровне схожести обеих программ.
Для выполнения структурного выравнивания были использованы последовательности А цепей домена семейства серпинов PF00079 трёх белков: Alpha-1-antitrypsin (1atu), Alpha-1-antichymotrypsin (1as4) и Plasminogen activator inhibitor-2 (1by7).
| Совпадающие участки (блоки) | |||
|---|---|---|---|
| № | Muscle | PDBeFold | Длина блока |
| 1 | (1,64) | (1,64) | 64 |
| 2 | (71,101) | (72,102) | 31 |
| 3 | (116,125) | (125,134) | 10 |
| 4 | (131,147) | (141,157) | 17 |
| 5 | (154,182) | (167,195) | 29 |
| 6 | (188,204) | (203,219) | 17 |
| 7 | (220,241) | (235,256) | 22 |
| 8 | (246,247) | (261,262) | 2 |
| 9 | (250,256) | (265,271) | 7 |
| 10 | (282,338) | (301,357) | 57 |
| 11 | (385,387) | (404,406) | 3 |
Длина выравнивания Muscle: 387
Длина выравнивания PDBeFold: 406
Совпадающих колонок: 259
% совпадающих колонок выравнивания Muscle: 66.9%
% совпадающих колонок выравнивания PDBeFold: 63.8%
Всего блоков: 11
Было установлено, что выравнивания PDBeFold и Muscle достаточно похожи. В результате работы скрипта было найдено довольно много совпадающих колонок и 11 блоков совпадения, среди которых выделяются четыре достаточно больших участка: 1–64 (длина 64), 71–101 (длина 31), 154–182 (длина 29), 282–338 (длина 57), которые соответствуют структурно-консервативным участкам.
Также были проверены крупные несовпадающие участки, а именно: 103–124, 220–234, 272–300 и 358–403. В большинстве своём данные участки соответствуют петлям (участкам между альфа-спиралями и бета-тяжами, не имеющим регулярной вторичной структуры), которые также не сошлись в PDBeFold, что, вероятно, легко связать с высокой вариабельностью данных участков.
Но также, что более интересно, участки 272–300 и 358–403 помимо участков петель захватывают небольшие участки консервативных бета-тяжей. Это, вероятно, можно связать с тем, что Muscle старается выравнивать с меньшим количеством гэпов и инделей, чем другие выравнивания, а PDBeFold, наоборот, вставляет их больше. Что особенно чётко видно по С-концу и по длине итогового выравнивания, которое получилось больше, чем у Muscle.
PRANK — программа для множественного выравнивания нуклеотидных, белковых и кодоновых последовательностей [1]. Она разработана Ари Лёйтыноя и Ником Голдманом в Европейском институте биоинформатики. В отличие от других программ выравнивания, PRANK использует филогенетическую информацию для различения гэпов, возникших вследствие инсерций и делеций, и обрабатывает эти два типа событий по-разному [1], [3].
PRANK реализует прогрессивный алгоритм выравнивания, опирающийся на направляющее дерево [2]. Стандартные прогрессивные программы часто не так сильно учитывают филогению, из-за чего гэпы становятся эволюционно неосмысленными. PRANK же различает инсерции и делеции и корректно обрабатывает их уже в ходе прогрессивного выравнивания [2], [3]. Также PRANK способен реконструировать предковые последовательности и маркировать гэпы в выравнивании в зависимости от их происхождения — инсерция это или делеция [3].
PRANK чувствителен к ошибкам в направляющей филогении, а также к нарушениям исходных предположений о происхождении гэпов [3]. Кроме того, как и все строго прогрессивные методы, PRANK сильно зависит от качества переданного направляющего дерева — в отличие от итеративных программ, которые могут уточнять выравнивание на нескольких проходах [5]. Также одним из важных ограничений PRANK является его вычислительная сложность. В отличие от Muscle или MAFFT, которые оптимизированы для работы с большими наборами данных, PRANK работает значительно медленнее (примерно в 500 раз медленнее MAFFT) [2].
Позже для уменьшения ограничений алгоритм был переработан и реализован в программе PAGAN. PAGAN использует графы последовательностей, моделирует более сложные структуры гэпов и учитывает неопределённость при реконструкции предковых последовательностей [4].
PRANK представляет собой удобную программу для множественного выравнивания. Его основное достоинство — учёт филогении и получение «более эволюционных» выравниваний. Его основной недостаток — зависимость от качества филогенетического дерева и низкая скорость работы. Однако при наличии надёжного дерева PRANK может давать более биологически интерпретируемые результаты по сравнению с традиционными программами, такими как Muscle или MAFFT [3], [5].