Практикум 12

Сравнение выравнивания одних и тех же последовательностей тремя разными программами

Полученные выравнивания в формате FASTA:

Для получения сравнений выравниваний использовался код, написанный моей однокурсницей Гончаровой Еленой

Таблица 1. MUSCLE и MAFFT
совпадающие участки

№	Muscle	Mafft
1	(1,32)	(1,32)
2	(42,45)	(42,45)
3	(54,57)	(54,57)
4	(63,93)	(64,94)
5	(237,252)	(376,391)
6	(286,288)	(444,446)
7	(290,315)	(448,473)

Таблица 2. MUSCLE и MAFFT
несовпадающие участки

№	Muscle	Mafft
1	(33,41)	(33,41)
2	(46,53)	(46,53)
3	(58,62)	(58,63)
4	(94,236)	(95,375)
5	(253,285)	392,443)
6	(289,289)	(447,447)
7	(316,326)	(474,485)

При сравнении выравниваний MUSCLE и MAFFT было обнаружено 7 блоков (119 колонок) одинаково выровненных колонок. Наличие относительно длинных блоков (максимальная длина — 32 а.к.о.) свидетельствует о высокой степени схожести этих двух алгоритмов друг с другом. Также совпадающие блоки в превой половине распалагаются в одинаковых местах выравниваний, что может свидетельствовать о том, что N-концевая часть белка эволюционно более консервативна, либо это связано со спецификой работы программ (так как в начале выравнивания гэпов еще мало, поэтому они не успели "сдвинуть" номера).

Таблица 3. MUSCLE и T-coffee
совпадающие участки

№	Muscle	T-coffee
1	(1,10)	(1,10)
2	(13,29)	(13,29)
3	(41,45)	(41,45)
4	(53,59)	(53,59)
5	(63,93)	(63,93)
6	(237,258)	(472,493)
7	(264,266)	(499,501)
8	(290,319)	(529,558)

Таблица 4. MUSCLE и T-coffee
несовпадающие участки

№	Muscle	T-coffee
1	(11,12)	(11,12)
2	(30,40)	(30,40)
3	(46,52)	(46,52)
4	(60,62)	(60,62)
5	(94,236)	(94,471)
6	(259,263)	(494,498)
7	(267,289)	(502,528)
8	(320,326)	(559,565)

В паре Muscle и T-coffee обнаружено 8 блоков совпадения (129 колонок). Максимальная длина блока составляет 31 а.к.о. В первой половине также наблюдаются совпадающие блоки на одинаковых позициях.

Совпадение Muscle с Mafft составило 36,5%, а Muscle с T-coffee - 39,6%. Результаты сравнения программ Muscle и Mafft, Muscle и T-coffee (такие как количество совпавших колонок и блоков, максимальная длина блока и др.) очень похожи друг на друга, поэтому можно предположить, что эти программы в данном случае взаимозаменяемы.

Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA

Проект Jalview с двумя выравниваниями

Полученные выравнивания в формате FASTA:

1) MUSCLE
2) PDBeFold

Таблица 5. MUSCLE и PDBeFold
совпадающие участки

№	Muscle	PDBeFold
1	(21,99)	(25,103)
2	(118,156)	(121,159)
3	(159,199)	(163,203)

Таблица 6. MUSCLE и PDBeFold
несовпадающие участки

№	Muscle	PDBeFold
1	(1,20)	(1,24)
2	(100-117)	(104,120)
3	(157,158)	(160,162)
4	(200,207)	(204,211)

Одиночных совпадений вне блоков: 1 (1,1)

Рис 1. Совмещение 3D-струкрур 3 белков
Оранжевый - 6l3u:A
Зеленый - 2zw3:A
Голубой - 6mhq:A

Были проанализированы выравнивания 3х последовательсностей А-цепей белков из домена Connexin (PF00029): 2ZW3, 6L3U, 6MHQ . Выравнивания имеют высокий процент сходства. Процент совпадающих колонок в выравнивании MUSCLE: 77,3%. Процент совпадающих колонок в выравнивании PDBeFold: 75,8% . Присутсвуют 3 больших совпадающих блока, длина которых составляет 79, 41 и 39 а.о. Из этого можно сделать вывод, что MUSCLE корректно выровнял последовательности и полученное выравнивание близко к истинному структурному выравниванию (структурные единицы более эволюционно устойчивы). Консервативные участки последовательности соответствуют структурно-консервативным участкам.

Программа MSA - MUSCLE

MUSCLE (от англ. Multiple Sequence Comparison by Log-Expectation) — компьютерная программа для множественного выравнивания белковых и нуклеотидных последовательностей. Разработана Робертом Эдгаром и впервые представлена в 2004 году в журнале Nucleic Acids Research [1].

Алгоритм включает быструю оценку попарных расстояний с помощью подсчёта k-меров, прогрессивное выравнивание с использованием целевой функции на основе логарифмического ожидания и итеративное уточнение с помощью зависимого от дерева перестроения профилей [1]. Оптимизированный алгоритм позволяет обрабатывать большие наборы данных (сотни последовательностей) за минуты. [2]

Преимущества перед аналогами

1) В 10–100 раз быстрее ClustalW и на порядки быстрее ProbCons [1, 2].
2) Для умеренно гомологичных последовательностей (идентичность >25%) точность MUSCLE достигает ~75%, что выше, чем у ClustalW (64,4%) [2].

Недостатки:

1) Менее точен при идентичности <15–20%.[2]
2) Плохо выравнивает участки, встречающиеся менее чем в 20% последовательностей.[2]
3) При количестве >80 последовательностей точность MUSCLE заметно снижается [2].
4) Не использует 3D-структуру белков в отличие от методов типа 3D-Coffee [1].

Источники

1) Edgar R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput //Nucleic acids research. – 2004. – Т. 32. – №. 5. – С. 1792-1797.

2) hompson J. D. et al. A comprehensive benchmark study of multiple sequence alignment methods: current challenges and future perspectives //PloS one. – 2011. – Т. 6. – №. 3. – С. e18093.