Для выравнивания были выбраны последовательности из практикума 11, составляющие достоверный блок, включающий не все последовательности (см. практикум 11: МДБ-notAll). Для сравнения выравниваний использовалась программа MACHO Виталия Гагарочкина.
Таблица 1. Сравнение алгоритмов выравнивания Muscle и MAFFT
| Блок | Muscle | MAFFT | Длина блока |
|---|---|---|---|
| 1 | 1–21 | 1–21 | 21 |
| 2 | 36–36 | 31–31 | 1 |
| 3 | 39–74 | 34–69 | 36 |
| 4 | 80–81 | 75–76 | 3 |
| 5 | 93–124 | 84–115 | 32 |
| 6 | 136–137 | 121–122 | 2 |
| 7 | 148–160 | 127–139 | 13 |
| 8 | 163–170 | 142–149 | 8 |
| 9 | 178–195 | 156–173 | 18 |
| 10 | 197–200 | 175–178 | 4 |
| 11 | 203–228 | 181–206 | 26 |
| 12 | 232–252 | 210–230 | 21 |
| 13 | 255–277 | 233–255 | 23 |
Длина выравнивания Muscle: 277
Длина выравнивания MAFFT: 255
Совпадающих колонок: 208
% совпадающих колонок выравнивания Muscle: 74.73%
% совпадающих колонок выравнивания MAFFT: 81.18%
Всего блоков: 13
Максимальная длина блока: 36 а.к.
Таблица 2. Сравнение алгоритмов выравнивания Muscle и ClustalW
| Блок | Muscle | ClustalW | Длина блока |
|---|---|---|---|
| 1 | 1–7 | 1–7 | 7 |
| 2 | 8–22 | 9–23 | 15 |
| 3 | 35–35 | 28–28 | 1 |
| 4 | 40–41 | 33–34 | 2 |
| 5 | 42–60 | 36–54 | 19 |
| 6 | 61–68 | 56–63 | 8 |
| 7 | 69–69 | 72–72 | 1 |
| 8 | 70–70 | 78–78 | 1 |
| 9 | 71–73 | 80–82 | 3 |
| 10 | 94–119 | 110–135 | 26 |
| 11 | 149–152 | 155–158 | 4 |
| 12 | 153–155 | 160–162 | 3 |
| 13 | 156–167 | 164–175 | 12 |
| 14 | 179–193 | 198–212 | 15 |
| 15 | 197–199 | 216–218 | 3 |
| 16 | 205–230 | 222–247 | 26 |
| 17 | 235–242 | 254–261 | 8 |
| 18 | 243–249 | 265–271 | 7 |
| 19 | 250–250 | 274–274 | 1 |
| 20 | 251–252 | 278–279 | 2 |
| 21 | 255–255 | 282–282 | 1 |
| 22 | 256–258 | 284–286 | 3 |
| 23 | 259–264 | 288–293 | 6 |
| 24 | 265–277 | 295–307 | 13 |
Длина выравнивания Muscle: 277
Длина выравнивания ClustalW: 307
Совпадающих колонок: 187
% совпадающих колонок выравнивания Muscle: 67.51%
% совпадающих колонок выравнивания ClustalW: 60.91%
Всего блоков: 24
Максимальная длина блока: 26
В результате сравнения результатов выравниваний можно сделать вывод, что все три выравнивания имеют довольно значительную степень сходства, однако, Muscle и MAFFT имеют большую степень сходства, чем Muscle и ClustalW. Несмотря на то, что они имеют меньшее количество одинаковых блоков, эти блоки значительно больше в среднем, блока максимальной длины больше почти в полтора раза, а также они имеют значимо большее количество совпадающих колонок в целом.
Проект Jalview с 3 выравниваниями
Fasta файл выравнивания Muscle
Fasta файл выравнивания MAFFT
Fasta файл выравнивания ClustalW
Для выполнения структурного выравнивания были использованы последовательности A цепей домена семейства 14-3-3 PF00244 трех белков: 14-3-3-Sigma (1yz5), 14-3-3-protein beta (Human) и 14-3-3 (Cryptosporidium parvum).
Таблица 3. Сравнение алгоритмов выравнивания Muscle и структурного выравнивания PDBeFold
| Блок | Muscle | PDBeFold | Длина блока |
|---|---|---|---|
| 1 | 3–5 | 3–5 | 3 |
| 2 | 8–37 | 8–37 | 30 |
| 3 | 41–72 | 41–72 | 32 |
| 4 | 82–83 | 84–85 | 2 |
| 5 | 87–164 | 89–166 | 78 |
| 6 | 167–211 | 169–213 | 45 |
| 7 | 217–217 | 220–220 | 1 |
| 8 | 219–237 | 222–240 | 19 |
Длина выравнивания Muscle: 239
Длина выравнивания PDBeFold: 242
Совпадающих колонок: 210
% совпадающих колонок выравнивания Muscle: 87.87%
% совпадающих колонок выравнивания PDBeFold: 86.78%
Всего блоков: 8
Максимальная длина блока: 78 а.к.
В результате сравнения выравнивания PDBeFold и Muscle показали довольно большую схожесть между собой. Несмотря на довольно небольшое количество совпадающих блоков, некоторые из них имеют довольно большую длину: 30–78 аминокислотных остатков.
Также, совпадающие блоки хорошо объясняются структурой: например, самый большой блок в 78 аминокислотных остатков приходится на две большие альфа-спирали в середине структуры.
Проект Jalview с 2 выравниваниями>
Fasta файл выравнивания Muscle
Fasta файл выравнивания PDBeFold
T-Coffee относится к классу алгоритмов выравнивания, основанных на консистентности, которые могут быть описаны как медленные и точные. В рамках данного подхода последовательности не встраиваются в выравнивание напрямую, для начала они выравниваются любой подходящей комбинацией сторонних алгоритмов, из которых составляется коллекция (называемая библиотекой в T-Coffee), после чего коллекция преобразуется в множественное выравнивание с использованием позиция-специфичной оценки. То есть, после составления библиотеки программа строит направляющее древо, по которому строится окончательное выравнивание. На ранних версиях для составления библиотеки программа использовала ClustalW и Lalign[1].