DOMAK

Задание 1

Для выполнения практикума была дана структура 4CCZ 5-метилтетрагидрофолат-гомоцистеин метилтрансферазы человека, участвующая в биосинтезе метионина. Структура содержит домены, связывающие гомоцистеин и фолат.

С помощью алгоритма DOMAK можно предсказать наличие доменов в структуре. Он использует метод SplitValue (индекс разделенности), который предполагает, что остатки внутри домена будут образовывать много контактов, тогда как между доменов взаимодействий быть практически не должно.

(где intA – число пар контактирующих остатков из участка A (до некоего остатка), intB – число пар контактирующих остатков из участка B (после некоего остатка), extAB – число пар контактирующих остатков из двух участков)

На рисунке 1 изображен график, отображающий значение SplitValue для каждого остатка структуры (ссылка на ноутбук с кодом для реализации). На графике можно выделить три основных пика: на 28 остатке, на 349 и 637. Пики отображают линкеры между доменами, поэтому можно “разделить” структуру по этим пикам.

**Рисунок 1.** Значения функции SplitValue в зависимости от номера остатка. Три пика соответствуют остаткам 28, 349 и 637

В структуре есть проблемы с нумерацией: в PDB говорится о 644 остатках, тогда как на деле их меньше, и отсчет идет с 17 по 651. Соответственно, если судить по пикам, то на концах последовательности остаются небольшие, длиной в 10 нуклеотидов последовательности, которые якобы отделены от домена, но, кажется, их лучше отнести к одному домену (это небольшие альфа-спирали). Но пока оставим их отдельно. Итого было предсказано два домена + два кусочка по краям (рис.2).

**Рисунок 2.** Разбиение структуры 4CCZ по доменам, предсказанным с помощью DOMAK

Задание 2

Далее было предложено рассмотреть домены структуры в базах данных SCOP и CATH. В SCOP данная структура не была найдена. В CATH содержатся данные о том, что структура (TIM-бочонок) содержит два домена:

• 17-354 - гомоцистеин связывающий домен
• 355-651 - дигидроптероат синтаза

Разбиение находится примерно в тех же остатках (между доменами длинный линкер, в предсказании ровно посередине линкера, в CATH - перед бета-листом другого домена), а последовательности на краях отнесены к основным доменам (рис.3).

**Рисунок 3.** Разбиение структуры по доменам на основе информации из базы данных CATH

Еще структура была найдена в InterPro по PDB. Там тоже говорится о двух доменах, но их границы немного другие (рис.4):

• 6-325 - гомоцистеин связывающий домен
• 358-619 - птерин связывающий домен

**Рисунок 4.** Домены в структуре 4CCZ согласно InterPro

Некоторые несоответствия (рис.5):

• между доменами линкерная часть и даже как будто бы уже части доменов (одна альфа-спираль и один бета-лист) не относятся ни к одному из них.
• в конце последовательности 2.5 альфа-спирали не относятся к домену, хотя, казалось бы, почему бы и нет

**Рисунок 5.** Разбиение структуры по доменам на основе информации из базы данных InterPro

Задание 3

Далее в базе эволюционных доменов InterPro производился поиск по последовательности. Были найдены те же домены, что и в предыдущем задании в обеих базах данных (рис.6). Разбиение такое же, как и в найденной записи в InterPro.

**Рисунок 6.**Домены последовательности белка 4CCZ согласно InterPro

Найденные домены:

• HCY (Homocysteine-binding domain profile, PS50970) - этот домен есть во всех белках, которые переносят метильную группу с различных соединений на гомоцистеин.
• PTERIN_BINDING (Pterin-binding domain profile, PS50972) - домен есть в тех белках, где в реакции участвует производное птерина (как в метионинсинтазе, так и в некоторых других белках).

Функция белка - перенос метильной группы 5-метилтетрагиброфолата на гомоцистеин, образуя метионин. Поэтому все домены в структуре несут те функции, что и должны (связывание нужных соединений для реакции…)

Задание 4

Далее было предложено воспользоваться сервисами DSSP и STRIDE для сравнения сгенерированных аннотаций вторичной структуры. Выдача STRIDE показана на рисунке 7, выдачу DSSP, к сожалению, никак не получилось визуализировать, выдача программы лежит в файле.

**Рисунок 7.** Выдача сервиса STRIDE (красным показаны альфа-спирали, зеленым - бета-листы, синим - 310-спирали)

В целом, оба сервиса примерно так же определяют укладку последовательности белка, в основном различия в границах типов укладки (плюс-минус пара аминокислот), однако несколько отличий были найдены.

Позиции 94-96: по STRIDE – это поворот и начало альфа-спирали (в синем квадрате), в то время как в DSSP – 310-спираль, сразу переходящая в альфа-спираль (рис. 8). Посмотрев структуры в PyMOL, можно сказать, что эти три остатка точно не образуют никакую спираль, также есть сомнения насчет последующих остатков. Их положение слишком нестабильное для образования спирали. Здесь обе выдачи неверные.

**Рисунок 8.** Слева: участок выдачи сервиса DSSP, справа: участок в PyMOL (синий, последующие остатки выделены желтым)

Позиции 211-218: согласно DSSP, здесь нет никакой четкой укладки (рис. 9), а по STRIDE – два бета-листа (розовый квадрат). Структура в PyMOL в данном участке точно не образует (и не сможет) никаких бета-листов, скорее права выдача DSSP, где некоторые остатки указаны как поворот.

**Рисунок 9.** Слева: участок выдачи сервиса DSSP, справа: участок структуры в PyMOL (зеленый)

Таким образом, сложно сказать, какой сервис лучше аннотирует вторичную структуру. В данном случае более реалистично предсказал, наверное, DSSP, потому что STRIDE в обоих случаях выдал крайне малвероятные укладки...