Практикум 12. Сравнение алгоритмов выравнивания

Для выравнивания были выбраны последовательности из практикума 11, составляющие достоверный блок, включающий не все последовательности (см. практикум 11: МДБ-notAll). Для сравнения выравниваний использовалась программа MACHO Виталия Гагарочкина.

Сравнение Muscle и MAFFT

Таблица 1. Сравнение алгоритмов выравнивания Muscle и MAFFT

Блок	Muscle	MAFFT	Длина блока
1	1–21	1–21	21
2	36–36	31–31	1
3	39–74	34–69	36
4	80–81	75–76	3
5	93–124	84–115	32
6	136–137	121–122	2
7	148–160	127–139	13
8	163–170	142–149	8
9	178–195	156–173	18
10	197–200	175–178	4
11	203–228	181–206	26
12	232–252	210–230	21
13	255–277	233–255	23

Длина выравнивания Muscle: 277
Длина выравнивания MAFFT: 255
Совпадающих колонок: 208
% совпадающих колонок выравнивания Muscle: 74.73%
% совпадающих колонок выравнивания MAFFT: 81.18%
Всего блоков: 13
Максимальная длина блока: 36 а.к.

Сравнение Muscle и ClustalW

Таблица 2. Сравнение алгоритмов выравнивания Muscle и ClustalW

Блок	Muscle	ClustalW	Длина блока
1	1–7	1–7	7
2	8–22	9–23	15
3	35–35	28–28	1
4	40–41	33–34	2
5	42–60	36–54	19
6	61–68	56–63	8
7	69–69	72–72	1
8	70–70	78–78	1
9	71–73	80–82	3
10	94–119	110–135	26
11	149–152	155–158	4
12	153–155	160–162	3
13	156–167	164–175	12
14	179–193	198–212	15
15	197–199	216–218	3
16	205–230	222–247	26
17	235–242	254–261	8
18	243–249	265–271	7
19	250–250	274–274	1
20	251–252	278–279	2
21	255–255	282–282	1
22	256–258	284–286	3
23	259–264	288–293	6
24	265–277	295–307	13

Длина выравнивания Muscle: 277
Длина выравнивания ClustalW: 307
Совпадающих колонок: 187
% совпадающих колонок выравнивания Muscle: 67.51%
% совпадающих колонок выравнивания ClustalW: 60.91%
Всего блоков: 24
Максимальная длина блока: 26

В результате сравнения результатов выравниваний можно сделать вывод, что все три выравнивания имеют довольно значительную степень сходства, однако, Muscle и MAFFT имеют большую степень сходства, чем Muscle и ClustalW. Несмотря на то, что они имеют меньшее количество одинаковых блоков, эти блоки значительно больше в среднем, блока максимальной длины больше почти в полтора раза, а также они имеют значимо большее количество совпадающих колонок в целом.

Проект Jalview с 3 выравниваниями
Fasta файл выравнивания Muscle
Fasta файл выравнивания MAFFT
Fasta файл выравнивания ClustalW

Сравнение Muscle и PDBeFold

Для выполнения структурного выравнивания были использованы последовательности A цепей домена семейства 14-3-3 PF00244 трех белков: 14-3-3-Sigma (1yz5), 14-3-3-protein beta (Human) и 14-3-3 (Cryptosporidium parvum).

**Рис. 1.** Совмещение 3D-структур белков

Таблица 3. Сравнение алгоритмов выравнивания Muscle и структурного выравнивания PDBeFold

Блок	Muscle	PDBeFold	Длина блока
1	3–5	3–5	3
2	8–37	8–37	30
3	41–72	41–72	32
4	82–83	84–85	2
5	87–164	89–166	78
6	167–211	169–213	45
7	217–217	220–220	1
8	219–237	222–240	19

Длина выравнивания Muscle: 239
Длина выравнивания PDBeFold: 242
Совпадающих колонок: 210
% совпадающих колонок выравнивания Muscle: 87.87%
% совпадающих колонок выравнивания PDBeFold: 86.78%
Всего блоков: 8
Максимальная длина блока: 78 а.к.

В результате сравнения выравнивания PDBeFold и Muscle показали довольно большую схожесть между собой. Несмотря на довольно небольшое количество совпадающих блоков, некоторые из них имеют довольно большую длину: 30–78 аминокислотных остатков.

Также, совпадающие блоки хорошо объясняются структурой: например, самый большой блок в 78 аминокислотных остатков приходится на две большие альфа-спирали в середине структуры.

Проект Jalview с 2 выравниваниями>

Fasta файл выравнивания Muscle

Fasta файл выравнивания PDBeFold

Описание T-Coffee

T-Coffee относится к классу алгоритмов выравнивания, основанных на консистентности, которые могут быть описаны как медленные и точные. В рамках данного подхода последовательности не встраиваются в выравнивание напрямую, для начала они выравниваются любой подходящей комбинацией сторонних алгоритмов, из которых составляется коллекция (называемая библиотекой в T-Coffee), после чего коллекция преобразуется в множественное выравнивание с использованием позиция-специфичной оценки. То есть, после составления библиотеки программа строит направляющее древо, по которому строится окончательное выравнивание. На ранних версиях для составления библиотеки программа использовала ClustalW и Lalign[1].

Список литературы

Di Tommaso P. et al. T-Coffee: a web server for the multiple sequence alignment of protein and RNA sequences using structural information and homology extension // Nucleic acids research. — 2011. — Т. 39. — №. suppl_2. — С. W13–W17.