Сравнения программ для множественного выравнивания
В Uniprot были выбраны 20 последовательностей инсулина. Они были выровненны программами: MAFFT, Muscle и Clustalo. В качестве рефенесного было выбрано выравнивание сделанное с помощью MAFFT.
Я воспользовалась программой для сравнения выравниваний, которую сделали мои однокурсники(сердечно благодарю их) 🌸Ссылочка
Результаты:
🌸MAFFT vs MUSCLE Comparison
- Percentage of matching columns for the first alignment (mafft.txt): 81.51%
- Percentage of matching columns for the second alignment (muscle.txt): 82.20%
Block | Alignment_1 | Alignment_2 |
---|---|---|
1 | 1-57 | 1-57 |
2 | 65-72 | 64-71 |
3 | 74-74 | 73-73 |
4 | 76-76 | 75-75 |
5 | 90-119 | 89-118 |
🌸MAFFT vs Clustalo Comparison
- Percentage of matching columns for the first alignment (mafft.txt): 73.95%
- Percentage of matching columns for the second alignment (clustalo.txt): 74.58%
Block | Alignment_1 | Alignment_2 |
---|---|---|
1 | 6-18 | 6-18 |
2 | 21-50 | 21-50 |
3 | 53-56 | 53-56 |
4 | 66-73 | 65-72 |
5 | 85-85 | 84-84 |
6 | 88-119 | 87-118 |
Из получнных данных можно сделать вывод, что выравнивание программой Muscle больше похоже на референсное, чем выравнивание программой Clustalo
Выравнивание 3D структур
Для выравнивания были выбраны белки 1ATN, 1C0F, 1D4X. На выравнивании, полученном при совмещении пространственных структур есть консервативный участкок 162-171, пристуствуют консервативные колонки 297, 300, 329 и другие. В выравнивании, сделанном программой MAFFT гораздо больше консервативных столбцов и участков 114-123, 327-354, 367-382. Это все свидетельствует о том, что выравнивание сделанное программой более точно и на нем проще отследить гомологичность белков. При этом в обоих очень большое количество гэпов(особенно, для белка 1C0F, потому что он короче двух других), поэтому сложнее сказать о гомологии представленных белков.

Описание программы MSA
MAFFT (Multiple Alignment using Fast Fourier Transform) представляет собой высокоэффективный алгоритм для множественного выравнивания биологических последовательностей. Сначала программа применяет быстрое преобразование Фурье (FFT) для поиска схожих участков, затем строит матрицу сходства и направляющее дерево для определения порядка выравнивания. В конце выполняется итеративное уточнение выравнивания, где большое внимание уделяется обработке областей с низкой степенью консервативности. Для больших наборов данных используются оптимизации - частичное выравнивание и сжатие идентичных последовательностей. В расширенных режимах (E-INS-i, X-INS-i) учитываются структурные особенности. MAFFT демонстрирует особую эффективность при выравнивании больших наборов данных, но и сохраняет высокую точность на стандартных тестовых наборах. (Katoh K, Rozewicki J, Yamada KD. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. 2019 Jul 19;20(4):1160-1166. doi: 10.1093/bib/bbx108. PMID: 28968734; PMCID: PMC6781576.)