Для множественного выравнивания были взяты белки домена PF00531.
Результаты выравнивания тремя разными программами в формате .fasta:
Для сравнения выравнивания разными программами был использован код моей однокурсницы Елены Гончаровой.
Результаты сравнения программ Muscle и Mafft представлены в таблицах 1 (совпадающие участки),2 (несовпадающие участки).
| № | Muscle | Mafft | Длина |
|---|---|---|---|
| 1 | (9,10) | (15,16) | 2 |
| 2 | (76,77) | (119,120) | 2 |
| 3 | (88,94) | (131,137) | 7 |
| № | Muscle | Mafft |
|---|---|---|
| 1 | (11,75) | (17,118) |
| 2 | (78,87) | (121,130) |
| 3 | (95,104) | (138,142) |
По результатам сравнения видно, что программы Muscle и Mafft имеют 11 совпадающих колонок. Длина блоков не такая большая, что говорит о том, что алгоритмы Muscle и Mafft различаются.
Результаты сравнения программ Muscle и Tcoffee представлены в таблицах 3 (совпадающие участки),4 (несовпадающие участки).
| № | Muscle | Tcoffee | Длина |
|---|---|---|---|
| 1 | (1,10) | (1,10) | 10 |
| 2 | (76,77) | (92,93) | 2 |
| 3 | (88,94) | (104,110) | 7 |
| № | Muscle | Tcoffee |
|---|---|---|
| 1 | (11,75) | (11,91) |
| 2 | (78,87) | (94,103) |
| 3 | (95,104) | - |
По результатам сравнения видно, что программы Muscle и Tcoffee имеют 19 совпадающих колонок. Примечательно, что обе программы выдали одинаковый консервативный участок в начале последовательностей (участок (1,10)), что говорит о том, что, возможно, N-концевой конец последовательностей домена PF00531 более консервативный.
Сравнение программ множественного выравнивания Muscle и Mafft, Muscle и Tcoffee показало, что последняя пара имеет больше сходств из-за бОльшего количества совпадающих колонок (11 и 19 соответственно). Также стоит отметить, что длина совпадающих блоков в выравниваниях Muscle и Tcoffee больше, чем в Muscle и Mafft, что дает основание предполагать, что алгоритмы Muscle и Tcoffee более сходны, чем алгоритмы Muscle и Mafft.
Были выбраны три последовательности с доменом PF00531 (PDB ID):
Проекты выравниваний через программы Muscle и PDBeFold в формате .fasta:
Проект двух выравниваний в Jalview: ex3.jvp.
В данном задании сравнение выравниваний через программы Muscle и PDBeFold я проводила самостоятельно с помощью глаз, из-за чего, по требованиям, нужно было найти минимум три участка совпадения и два участка несовпадения. Результаты приведены в таблице 5 (совпадающие участки) и таблице 6 (несовпадающие участки).
| № | Muscle | PDBeFold | Длина |
|---|---|---|---|
| 1 | (1,13) | (1,13) | 13 |
| 2 | (16,31) | (16,31) | 16 |
| 3 | (77,85) | (73,81) | 9 |
| № | Muscle | PDBeFold |
|---|---|---|
| 1 | (14,15) | (14,15)< |
| 2 | (32,76) | (32,72) |
По результатам сравнения было найдено 38 совпадающих колонок. Примечательно, что все они находятся в первой половине последовательностей, причем блоки достаточно протяженные. Это может говорить о том, что N-концевые участки белков претерпели меньше изменений в процессе эволюции.
Совмещение трех структур представлено на рис. 1.
Информация для описания программы MUSCLE, приведенного ниже, была взята из статьи Robert C. Edgar, MUSCLE: multiple sequence alignment with high accuracy and high throughput, Nucleic Acids Research, Volume 32, Issue 5, 1 March 2004, Pages 1792–1797, https://doi.org/10.1093/nar/gkh340
MUSCLE (Multiple Sequence Comparison by Log-Expectation) – программа для множественного выравнивания белковых последовательностей, разработанная Робертом Эдгаром в 2004 году. В ней сочетаются высокая точность и производительность, что делает её одной из самых популярных MSA-программ, в том числе для учебных целей.
Алгоритм работы состоит из трех основных этапов. Общее течение алгоритма MUSCLE представлено на рис. 2.
Для всех пар последовательностей вычисляется k-mer расстояние (основанное на общих коротких фрагментах), которое не требует предварительного выравнивания.На основе этих данных методом UPGMA строится филогенетическое дерево.
Выполняется прогрессивное выравнивание по этому дереву, в результате чего получается первое множественное выравнивание MSA1.
Из полученного выравнивания MSA1 вычисляется более точное “Kimura” расстояние. По этим данным методом UPGMA строится новое филогенетическое дерево. Далее по этому дереву выполняется повторное прогрессивное выравнивание, дающее выравнивание MSA2.
Дерево модифицируется, после чего для частей дерева также проводится выравнивание. Далее оценивается эффективность нового выравнивания (с помощью SP-оценки). Если оно оказалось эффективнее – оно сохраняется.
Процесс повторяется до сходимости.
Как отмечалось выше, MUSCLE демонстрирует высокую скорость работы: программа способна выровнять 5000 последовательностей средней длины 350 аминокислот за 7 минут на обычном компьютере. При этом точность выравнивания сопоставима или превосходит другие методы, такие как T-Coffee и MAFFT.