Для выполнения задания были выбраны последовательности семейства белковых доменов Ribosome inactivating protein (PF00161). Для выравнивания использовались программы MSA Muscle, Mafft и T-Coffee, в качестве референсного выравнивания было выбрано выравнивание Muscle. Для сравнения выравниваний использовался код моей однокурсницы Елены Гончаровой.
Ссылки на выравнивания (формат fasta):
• Muscle;
• Mafft;
• T-Coffee.
Ссылка на проект с выравниваниями Jalview
1) СРАВНЕНИЕ MUSCLE И MAFFT
Таблица 1. Блоки одинаково выровненных колонок в выравниваниях Muscle и Mafft.
| Muscle | Mafft | Длина |
|---|---|---|
| (76,86) | (84,94) | 11 |
| (144,158) | (155,169) | 15 |
| (212,218) | (232,238) | 7 |
| (294,298) | (319,323) | 5 |
| (304,314) | (329,339) | 11 |
| (346,353) | (329,339) | 11 |
Длина выравнивания Muscle: 749;
Длина выравнивания Mafft: 834;
Всего совпадающих колонок: 59 (7.9% от Muscle, 7.1% от Mafft);
Всего блоков: 6;
Одиночные совпадающие колонки: (637,678), (639,680).
2) СРАВНЕНИЕ MUSCLE И T-COFFEE
Таблица 2. Блоки одинаково выровненных колонок в выравниваниях Muscle и T-Coffee.
| Muscle | T-Coffee | Длина |
|---|---|---|
| (75,87) | (74,86) | 13 |
| (143,160) | (150,167) | 18 |
| (278,279) | (304,305) | 2 |
| (294,298) | (323,327) | 5 |
| (304,314) | (333,343) | 11 |
| (346,354) | (377,385) | 9 |
| (463,473) | (493,503) | 11 |
| (621,625) | (672,676) | 5 |
| (637,639) | (707,709) | 3 |
Длина выравнивания Muscle: 749;
Длина выравнивания T-Coffee: 870;
Всего совпадающих колонок: 78 (10.4% от Muscle, 9.0% от T-Coffee);
Всего блоков: 9;
Одиночные совпадающие колонки: (619,670).
Выравнивание T-Coffee немного больше похоже на выравнивание Muscle: у этих выравниваний больше совпадающих блоков и колонок в целом, чем у Muscle и Mafft, то есть, в выравнивании T-Coffeе больше участков, идентичных Muscle. Также, в обоих случаях совпадения есть в первой половине выравнивания, однако у выравниваний Muscle и T-Coffee совпадающие блоки присутствуют и в конце последовательностей. И в Mafft, и в T-Coffee, по сравнению с Muscle, больше гэпов, поэтому они длиннее.
Для выполнения задания были выбраны последовательности белков (цепей А) семейства Cadherin domain (PF00028) со следующими PDB ID: 1zvn, 1zxk, 2a4c, 3k6i, 1nch, 1nci. Совмещение 3D-структур белков показано на рис. 1, 2.
Ссылки на выравнивания (формат fasta):
• PDBeFold;
• Muscle;
Ссылка на проект с выравниваниями Jalview
Таблица 3. Блоки одинаково выровненных колонок в выравниваниях PDBeFold и Muscle.
| PDBeFold | Muscle | Длина |
|---|---|---|
| (1,13) | (1,13) | 13 |
| (20,26) | (19,25) | 7 |
| (39,49) | (38,48) | 11 |
| (51,53) | (50,52) | 3 |
| (55,106) | (54,105) | 52 |
Длина выравнивания PDBeFold: 106;
Длина выравнивания Muscle: 105;
Всего совпадающих колонок: 86 (81.1% от PDBeFold, 81.9% от Muscle);
Всего блоков: 5;
Одиночные совпадающие колонки: 0.
Выравнивание Muscle показывает высокую степерь сходства с выравниванием по совмещению структур PDBeFold (они имеют почти одинаковую длину, высокий процент совпадающих колонок, также присутствуют довольно длинные блоки одинаково выровненных колонок). Начиная со второго блока, у Muscle блоки сдвинуты влево на одну позицию относительно PDBeFold, что скорее всего связано с разной расстановкой гэпов в начале выравниваний.
T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) — это пакет программ для множественного выравнивания последовательностей (MSA), разработанный в 2000 году группой исследователей под руководством Седрика Нотредама, Десмонда Хиггинса и Яапа Херинги [1].
Алгоритм включает три основных этапа [1]:
1) Построение библиотеки всех возможных попарных выравниваний между последовательностями. T-Coffee может получать эти выравнивания с использованием как глобальных, так и локальных методов выравнивания, что позволяет учитывать и общую структуру последовательностей, и отдельные консервативные участки [1].
2) Каждому попарному выравниванию присваивается вес, и библиотека расширяется за счет оценки согласованности между различными парами выравниваний (то есть, при выравнивании двух последовательностей учитывается информация о том, как каждая из них выравнивается с третьей последовательностью) [1].
3) Финальное множественное выравнивание строится с помощью прогрессивного алгоритма. Однако в отличие от ClustalW, на каждом шаге используется информация из расширенной библиотеки попарных выравниваний, что значительно повышает точность [1].
Преимущества. Так как алгоритм учитывает то, как две последовательности выравниваются со всеми остальными последовательностями в наборе, это позволяет избежать ошибок, допущенных при первых выравниваниях, что свойственно "жадному" характеру прогрессивного выравнивания. Также T-Coffee имеет высокую точность выравнивания, превосходя многие программы, особенно для эволюционно далеких последовательностей [1].
Недостатками T-Coffee являются низкая скорость построения выравнивания (он медленнее, чем ClustalW или MUSCLE), а также высокое потребление оперативной памяти и вычислительных ресурсов [2].
Сейчас пакет T-Coffee включает и другие расширения, например M-Coffee (Meta-Coffee) для объединения результатов нескольких программ MSA в одно итоговое выравнивание [3] или Expresso для улучшения выравнивания с помощью информации о трехмерной структуре белков [2].
ИСТОЧНИКИ
1. Notredame C., Higgins D. G., Heringa J. T-Coffee: A novel method for fast and accurate multiple sequence alignment //Journal of molecular biology. – 2000. – Т. 302. – №. 1. – С. 205-217.
2. Notredame C., Suhre K. Computing multiple sequence/structure alignments with the T‐coffee package //Current protocols in bioinformatics. – 2003. – Т. 4. – №. 1. – С. 3.8. 1-3.8. 28.
3. Moretti S. et al. The M-Coffee web server: a meta-method for computing multiple sequence alignments by combining alternative alignment methods //Nucleic acids research. – 2007. – Т. 35. – №. suppl_2. – С. W645-W648.