Алгоритмы и программы множественных выравниваний

1. Сравнение выравнивания одних и тех же последовательностей разными программами

В качестве референсного выравнивания, относительно которого сравнивались выравнивания, выпонленные с помощью программ MSA, использовалось одно из выравниваний из базы данных BAliBASE, а именно выравнивание в файле под названием BB11019.msf из архива BAliBASE_R1-5.tar.gz. Данный файл сравнивался попарно с 3 другими программами множественного выравнивания белковых последовательностей. Результаты сравнения представлены ниже:

Muscle:

Число последовательностей: 10

Длина первого выравнивания: 484

Длина второго выравнивания: 470

Процент совпадающих колонок в первом выравнивании: 22.73 %

Процент совпадающих колонок во втором выравнивании:: 23.4 %

Число совпадающих блоков: 13

photo

Выравнивание Muscle

Одинаково выровненные колонки, не входящие в блоки

Mafft:

Число последовательностей: 10

Длина первого выравнивания: 484

Длина второго выравнивания: 556

Процент совпадающих колонок в первом выравнивании: 5.99 %

Процент совпадающих колонок во втором выравнивании:: 5.22 %

Число совпадающих блоков: 6

photo

Выравнивание Mafft

Одинаково выровненные колонки, не входящие в блоки

ClustalO:

Число последовательностей: 10

Длина первого выравнивания: 484

Длина второго выравнивания: 430

Процент совпадающих колонок в первом выравнивании: 8.68 %

Процент совпадающих колонок во втором выравнивании:: 9.77 %

Число совпадающих блоков: 7

photo

Выравнивание ClustalO

Одинаково выровненные колонки, не входящие в блоки

Из представленных результатов видно, что процент совпадающих колонок в выравнивании довольно низок, однако можно проследить видимое различие между этими программами. Самый высокий процент совпадения блоков наблюдается у программы множественного выравнивания Muscle, которая является итеративным и, как следствие, наиболее эффективным алгоритмом. Также можно заметить, что некоторые блоки референсного выравнивания встречаются во всех сравнениях: '250-264' и '288-290', что говорит об этих блоках, как о функционально консервативных участках.
Такое сравнение разных программ множественного выравнивания позволяет определить наиболее правильное из них, а так же рассмотреть консервативные участки, как совпадающие блоки, тем самым предоставляя возможность проследить ход эволюции.

2. 3D выравнивание

Для построения 3D выравнивания я выбрала семейство белковых доменов Ribosome inactivating protein из базы данных Pfam, а именно белки:

1ABR - CRYSTAL STRUCTURE OF ABRIN-A

1BR6 - RICIN A CHAIN (RECOMBINANT) COMPLEX WITH PTEROIC A

1HWN - EBULIN COMPLEXED WITH GALACTOSE, TRIGONAL CRYSTAL FORM

Параметры, характерные для выравнивания этих белков, представлены в таблице 1:

Таблица 1. Результаты выравнивания белков 1ABR, 1BR6, 1HWN

photo
Совмещение структур белков можно наблюдать на рисунке 1
photo

Рисунок 1. Совмещение структур белков: желтым цветом окрашен белок 1ABR, синим - 1BR6, a зеленым - 1HWN

Выравнивание белков. Проект в Jalview. Попарное и множественные выравнивания

Из обоих выравниваний видно, что белки достаточно схожи между собой, а большое количество консервативных участков в выравнивании MSA (в структурном выравнивании им эквивалентны участки наложения белковых структур друг на друга)говорит об общности их происхождения, то есть о гомологии.

3. Программа множественного выравнивания Muscle

Muscle (MUltiple Sequence Comparison by Log-Expectation) - компьютерное программное обеспечение для множественного выравнивания последовательностей белков и нуклеотидных последовательностей. Впервые программа была опубликована профессором биологии Робертом С. Эдгаром в 2004 году. Тогда была издана первая статья в научном журнале Nucleic Acids Research, в которой был изложен непосредственно алгоритм программы, состоящий из 3 ступеней:

1. Черновое выравнивание

На этом первом этапе алгоритм производит многократное выравнивание, делая упор на скорость, а не на точность. Этот шаг начинается с вычисления k-мерного расстояния для каждой пары входных последовательностей, чтобы создать матрицу расстояний. Затем с учетом матрицы расстояний формируется бинарное дерево, на основе которого строится последовательное выравнивание, начиная с создания профилей для каждого листа дерева. Для каждого узла в дереве строится попарное выравнивание двух дочерних профилей, создавая новый профиль, который будет назначен этому узлу. Это продолжается до тех пор, пока не будет достигнуто многократное выравнивание всех входных последовательностей в корне дерева.

2. Исправление

На этом этапе основное внимание уделяется получению более оптимального дерева путем вычисления расстояния для каждой пары входных последовательностей с использованием множественного выравнивания последовательностей, полученного на первом этапе, и созданию второй матрицы расстояний. Затем эта матрица расстояний группируется для получения второго бинарного дерева. Прогрессивное выравнивание выполняется для получения множественного выравнивания последовательностей, как на этапе 1, но оно оптимизируется только путем вычисления выравниваний в поддеревьях, порядок ветвления которых изменился по сравнению с первым бинарным деревом, что приводит к более точному выравниванию.

3. Уточнение

На этом заключительном этапе из второго дерева выбирается ребро, расстояние от которого до корня уменьшается. Выбранное ребро удаляется, разделяя дерево на два поддерева. Затем для каждого поддерева вычисляется профиль множественного выравнивания. Новое выравнивание с несколькими последовательностями создается путем переориентации профилей поддеревьев. Если оценка улучшается, новое выравнивание сохраняется, в противном случае оно отменяется. Процесс удаления ребра и выравнивания повторяется до тех пор, пока не будет достигнуто сближение или пока не будет достигнут определенный пользователем предел.
photo

Рисунок 2. Алгоритм выравнивания Muscle

MUSCLE часто используется в качестве замены Clustal, поскольку он обычно (но не всегда) обеспечивает лучшее выравнивание последовательности, в зависимости от выбранных параметров. Значительно быстрее, чем Clustal, особенно для больших выравниваний.

Источники

Muscle MSA (Электронный ресурс): Wikipedia. The Free Encyclopedia. https://en.wikipedia.org/wiki/MUSCLE_(alignment_software)