12 практикум (Алгоритмы и программы множественного выравнивания. Верификация множественных выравниваний. Сравнение выравниваний.)

Ложкина Мария

Для множественного выравнивания были взяты белки домена PF00531.

Результаты выравнивания тремя разными программами в формате .fasta:

  1. Muscle
  2. Mafft
  3. Tcoffee

Для сравнения выравнивания разными программами был использован код моей однокурсницы Елены Гончаровой.

Сравнение программ Muscle и Mafft

Результаты сравнения программ Muscle и Mafft представлены в таблицах 1 (совпадающие участки),2 (несовпадающие участки).

Таблица 1. Совпадающие блоки в выравнивании белков домена PF00531 через программы Muscle и Mafft.
Muscle Mafft Длина
1 (9,10) (15,16) 2
2 (76,77) (119,120) 2
3 (88,94) (131,137) 7

Таблица 2. Несовпадающие блоки в выравнивании белков домена PF00531 через программы Muscle и Mafft.
Muscle Mafft
1 (11,75) (17,118)
2 (78,87) (121,130)
3 (95,104) (138,142)

По результатам сравнения видно, что программы Muscle и Mafft имеют 11 совпадающих колонок. Длина блоков не такая большая, что говорит о том, что алгоритмы Muscle и Mafft различаются.

Сравнение программ Muscle и Tcoffee

Результаты сравнения программ Muscle и Tcoffee представлены в таблицах 3 (совпадающие участки),4 (несовпадающие участки).

Таблица 3. Совпадающие блоки в выравнивании белков домена PF00531 через программы Muscle и Tcoffee.
Muscle Tcoffee Длина
1 (1,10) (1,10) 10
2 (76,77) (92,93) 2
3 (88,94) (104,110) 7

Таблица 4. Несовпадающие блоки в выравнивании белков домена PF00531 через программы Muscle и Tcoffee.
Muscle Tcoffee
1 (11,75) (11,91)
2 (78,87) (94,103)
3 (95,104) -

По результатам сравнения видно, что программы Muscle и Tcoffee имеют 19 совпадающих колонок. Примечательно, что обе программы выдали одинаковый консервативный участок в начале последовательностей (участок (1,10)), что говорит о том, что, возможно, N-концевой конец последовательностей домена PF00531 более консервативный.

Вывод

Сравнение программ множественного выравнивания Muscle и Mafft, Muscle и Tcoffee показало, что последняя пара имеет больше сходств из-за бОльшего количества совпадающих колонок (11 и 19 соответственно). Также стоит отметить, что длина совпадающих блоков в выравниваниях Muscle и Tcoffee больше, чем в Muscle и Mafft, что дает основание предполагать, что алгоритмы Muscle и Tcoffee более сходны, чем алгоритмы Muscle и Mafft.

Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA

Были выбраны три последовательности с доменом PF00531 (PDB ID):

  1. 2JS7, chain A
  2. 2IB1, chain A
  3. 1YG0, chain A

Проекты выравниваний через программы Muscle и PDBeFold в формате .fasta:

  1. Muscle
  2. PDBeFold

Проект двух выравниваний в Jalview: ex3.jvp.

В данном задании сравнение выравниваний через программы Muscle и PDBeFold я проводила самостоятельно с помощью глаз, из-за чего, по требованиям, нужно было найти минимум три участка совпадения и два участка несовпадения. Результаты приведены в таблице 5 (совпадающие участки) и таблице 6 (несовпадающие участки).

Таблица 5. Совпадающие блоки в выравнивании белков домена PF00531 через программы Muscle и PDBeFold.
Muscle PDBeFold Длина
1 (1,13) (1,13) 13
2 (16,31) (16,31) 16
3 (77,85) (73,81) 9

Таблица 6. Несовпадающие блоки в выравнивании белков домена PF00531 через программы Muscle и PDBeFold.
Muscle PDBeFold
1 (14,15) (14,15)<
2 (32,76) (32,72)

По результатам сравнения было найдено 38 совпадающих колонок. Примечательно, что все они находятся в первой половине последовательностей, причем блоки достаточно протяженные. Это может говорить о том, что N-концевые участки белков претерпели меньше изменений в процессе эволюции.

Совмещение трех структур представлено на рис. 1.

Рис. 1
Рисунок 1. Совмещение трех структур из домена PF00531. Бирюзовый – 2JS7, розовый – 2IB1, зеленый – 1YG0.

Краткое описание программы MUSCLE

Информация для описания программы MUSCLE, приведенного ниже, была взята из статьи Robert C. Edgar, MUSCLE: multiple sequence alignment with high accuracy and high throughput, Nucleic Acids Research, Volume 32, Issue 5, 1 March 2004, Pages 1792–1797, https://doi.org/10.1093/nar/gkh340

MUSCLE (Multiple Sequence Comparison by Log-Expectation) – программа для множественного выравнивания белковых последовательностей, разработанная Робертом Эдгаром в 2004 году. В ней сочетаются высокая точность и производительность, что делает её одной из самых популярных MSA-программ, в том числе для учебных целей.

Алгоритм работы

Алгоритм работы состоит из трех основных этапов. Общее течение алгоритма MUSCLE представлено на рис. 2.

Первый этап (черновое прогрессивное выравнивание)

Для всех пар последовательностей вычисляется k-mer расстояние (основанное на общих коротких фрагментах), которое не требует предварительного выравнивания.На основе этих данных методом UPGMA строится филогенетическое дерево.

Выполняется прогрессивное выравнивание по этому дереву, в результате чего получается первое множественное выравнивание MSA1.

Второй этап (улучшенное прогрессивное выравнивание)

Из полученного выравнивания MSA1 вычисляется более точное “Kimura” расстояние. По этим данным методом UPGMA строится новое филогенетическое дерево. Далее по этому дереву выполняется повторное прогрессивное выравнивание, дающее выравнивание MSA2.

Третий этап (уточнение)

Дерево модифицируется, после чего для частей дерева также проводится выравнивание. Далее оценивается эффективность нового выравнивания (с помощью SP-оценки). Если оно оказалось эффективнее – оно сохраняется.

Процесс повторяется до сходимости.

Как отмечалось выше, MUSCLE демонстрирует высокую скорость работы: программа способна выровнять 5000 последовательностей средней длины 350 аминокислот за 7 минут на обычном компьютере. При этом точность выравнивания сопоставима или превосходит другие методы, такие как T-Coffee и MAFFT.

Рис. 2
Рисунок 2. Схема общего вида алгоритма MUSCLE.