Практикум 12. Алгоритмы и программы множественного выравнивания. Базы гомологичных доменов

Задание 2. Множественное выравнивание одних и тех же последовательностей разными программами

Для выполнения задания практикума было выбрано семейство доменов OBG. Были выбраны следующие последовательсти: OBG_BACSU, OBG_ECOLI, OBG_MYCTU, OBG_STRCO, OBG_NEIG1, OBG_SALTY, OBG_DEHMC. С помощью программ MUSCLE, MAFFT и T-Coffee было проведено множественное выравнивание. Сравнение MUSCLE и MAFFT (первые 7 строк MUSCLE, вторые - MAFFT) Сравнение MUSCLE и T-Cofee (первые 7 строк MUSCLE, вторые - T-Cofee)

При сравнении выравниваний MUSCLE и MAFFT совпало 77.19 % и 75.14 % колонок соответственно. Было обнаружено 9 блоков, которые совпадали между выравниваниями до 360 позиции, затем произошел сдвиг в выравниваниях, сначала на 12 позиций (404-407, 416-419), затем на 2 позиции (509-513, 523-527). Начало последовательности было выровнено обоими алгоритмами схоже, поэтому можно сделать вывод о том, что концевые участи последовательности вариабельны и алгоритмы по-разному выравнивают такие участки. Для MUSCLE и T-Cofee совпало 79.14 %, 78.99 % колонок соответственно. Было обнаружено 12 блоков. Координаты всех блоков совпадали, следовательно алгоритмы схоже работают с выравниванием более вариабельных учатков.

Таким образом видно, что результат выравнивания зависит от выбора программ, при этом в основе MUSCLE и T-Cofee могут лежать схожие алгоритмы, так как блоки при сравнении выравниваний, выполненных данными программами, полностью совпали.

Задание 3. Сравнение выравнивания по совмещению структур с выравниванием программой MSA

Было выбрано семейство доменов PF00034 (Цитохром с). Для выравнивания были взяты 3 структуры: 1C52 (Thermus thermophilus), 1C53 (Desulfovibrio vulgaris), 1A56 (Nitrosomonas europaea). Парные выравнивания проводились относительно 1C52. Файл с множественным структурным выравниванием.

Из данного выравнивания видно, что циторхромы довольно сильно отличаются по структурам, хотя есть консервативные позиции (позиция ак + однобуквенный код) 5A, 56G, 89A. Так же блок 13-17 имеет много консервативных аминокислот, включая Гистидин в 17 положении и цистеин в 13 и 16. Можно предоположить что данный участок задействован в образовании активного центра фермента.

Выравнивание последовательностей с помощию алгоритма MUSCLE показало схожие результаты. В особенности, был выделен блок 11-15, соответствующий блоку 13-17 в выравнивании структур. Начало выравниваний не совпало, но это может быть связано с особенностями метода ренгеноструктурного анализа и положения свободного конца белка в растворе.

Задание 4. Описание программы MAFFT

MAFFT [multiple alignment using fast Fourier transform] - алгоритм для множественного выравнивания, использующий быстрое преобразование Фурье. Первая версия алгоритма была опубликована Kazutaka Katoh в 2002 году.

Алгоритм состоит из 5 этапов:

  • 1. Парное выравнивание. Необходимо для идентификации схожих регионов между последовательностями.
  • 2. Построение матрицы дистанций по различиям между последовательностями.
  • 3. Построение "направляющего" дерева, где последовательности делятся на кластеры на основе их сходства между собой.
  • 4. Прогрессивное выравнивание. Дерево задает порядок выравнивания последовательностей. Выравнивание происходит от листьев к корню и для каждого узла находится консенсусное выравнивание на основе дочерних узлов.
  • 5. Итеративное выравнивание. Повторение процесса для уточнения гэпов и инсерций.