Практикум 12. Сравнение алгоритмов выравнивания

Для выравнивания были выбраны последовательности из практикума 11, составляющие достоверный блок, включающий не все последовательности (см. практикум 11: МДБ-notAll). Для сравнения выравниваний использовалась программа MACHO Виталия Гагарочкина.

Сравнение Muscle и MAFFT

Таблица 1. Сравнение алгоритмов выравнивания Muscle и MAFFT

БлокMuscleMAFFTДлина блока
11–211–2121
236–3631–311
339–7434–6936
480–8175–763
593–12484–11532
6136–137121–1222
7148–160127–13913
8163–170142–1498
9178–195156–17318
10197–200175–1784
11203–228181–20626
12232–252210–23021
13255–277233–25523

Длина выравнивания Muscle: 277
Длина выравнивания MAFFT: 255
Совпадающих колонок: 208
% совпадающих колонок выравнивания Muscle: 74.73%
% совпадающих колонок выравнивания MAFFT: 81.18%
Всего блоков: 13
Максимальная длина блока: 36 а.к.

Сравнение Muscle и ClustalW

Таблица 2. Сравнение алгоритмов выравнивания Muscle и ClustalW

БлокMuscleClustalWДлина блока
11–71–77
28–229–2315
335–3528–281
440–4133–342
542–6036–5419
661–6856–638
769–6972–721
870–7078–781
971–7380–823
1094–119110–13526
11149–152155–1584
12153–155160–1623
13156–167164–17512
14179–193198–21215
15197–199216–2183
16205–230222–24726
17235–242254–2618
18243–249265–2717
19250–250274–2741
20251–252278–2792
21255–255282–2821
22256–258284–2863
23259–264288–2936
24265–277295–30713

Длина выравнивания Muscle: 277
Длина выравнивания ClustalW: 307
Совпадающих колонок: 187
% совпадающих колонок выравнивания Muscle: 67.51%
% совпадающих колонок выравнивания ClustalW: 60.91%
Всего блоков: 24
Максимальная длина блока: 26

В результате сравнения результатов выравниваний можно сделать вывод, что все три выравнивания имеют довольно значительную степень сходства, однако, Muscle и MAFFT имеют большую степень сходства, чем Muscle и ClustalW. Несмотря на то, что они имеют меньшее количество одинаковых блоков, эти блоки значительно больше в среднем, блока максимальной длины больше почти в полтора раза, а также они имеют значимо большее количество совпадающих колонок в целом.

Проект Jalview с 3 выравниваниями
Fasta файл выравнивания Muscle
Fasta файл выравнивания MAFFT
Fasta файл выравнивания ClustalW

Сравнение Muscle и PDBeFold

Для выполнения структурного выравнивания были использованы последовательности A цепей домена семейства 14-3-3 PF00244 трех белков: 14-3-3-Sigma (1yz5), 14-3-3-protein beta (Human) и 14-3-3 (Cryptosporidium parvum).

Рис. 1. Совмещение 3D-структур белков

Таблица 3. Сравнение алгоритмов выравнивания Muscle и структурного выравнивания PDBeFold

БлокMusclePDBeFoldДлина блока
13–53–53
28–378–3730
341–7241–7232
482–8384–852
587–16489–16678
6167–211169–21345
7217–217220–2201
8219–237222–24019

Длина выравнивания Muscle: 239
Длина выравнивания PDBeFold: 242
Совпадающих колонок: 210
% совпадающих колонок выравнивания Muscle: 87.87%
% совпадающих колонок выравнивания PDBeFold: 86.78%
Всего блоков: 8
Максимальная длина блока: 78 а.к.

В результате сравнения выравнивания PDBeFold и Muscle показали довольно большую схожесть между собой. Несмотря на довольно небольшое количество совпадающих блоков, некоторые из них имеют довольно большую длину: 30–78 аминокислотных остатков.

Также, совпадающие блоки хорошо объясняются структурой: например, самый большой блок в 78 аминокислотных остатков приходится на две большие альфа-спирали в середине структуры.

Проект Jalview с 2 выравниваниями>

Fasta файл выравнивания Muscle

Fasta файл выравнивания PDBeFold

Описание T-Coffee

T-Coffee относится к классу алгоритмов выравнивания, основанных на консистентности, которые могут быть описаны как медленные и точные. В рамках данного подхода последовательности не встраиваются в выравнивание напрямую, для начала они выравниваются любой подходящей комбинацией сторонних алгоритмов, из которых составляется коллекция (называемая библиотекой в T-Coffee), после чего коллекция преобразуется в множественное выравнивание с использованием позиция-специфичной оценки. То есть, после составления библиотеки программа строит направляющее древо, по которому строится окончательное выравнивание. На ранних версиях для составления библиотеки программа использовала ClustalW и Lalign[1].

Список литературы

  1. Di Tommaso P. et al. T-Coffee: a web server for the multiple sequence alignment of protein and RNA sequences using structural information and homology extension // Nucleic acids research. — 2011. — Т. 39. — №. suppl_2. — С. W13–W17.