Практикум 7

В данном практикуме я работал с PDB ID 6DLU. Эта запись соответствует структуре человеческого динамина-1 (Dynamin-1) в комплексе с 5'-гуанилилметилендифосфонатом (GMPPCP) — не гидролизуемым аналогом GTP, в котором ангидридная связь между β- и γ-фосфатами заменена на метиленовый мостик. В клетке динамин ассоциирован с мембраной за счет связывания фосфолипидов и способен образовывать олигомерные комплексы вокруг образующихся эндоцитозных везикул. Этот белок является ГТФазой и использует энергию гидролиза GTP для отделения сформировавшейся везикулы.

Структура 6DLU содержит 748 из 864 остатков белка и не включает C-концевой нативно неупорядоченный пролин-богатый домен. В записи PDB дается ссылка на идентификатор Q05193 (ID DYN1_HUMAN) в базе данных UniProtKB (Swiss-Prot), соответствующий полной последовательности динамина-1 человека.

Задание 1

В этом задании мной был реализован алгоритм DOMAK, после чего он был использован для поиска структурных доменов в динамине-1.

Описание алгоритма DOMAK

Алгоритм DOMAK позволяет выделять структурные домены в белке с использованием координат его атомов. Его идея заключается в том, что остатки в пределах домена имеют больше контактов друг с другом, чем с остатками за его пределами. В данном случае, под контактами обычно понимается простая сближенность атомов. В основе алгоритма — вычисление для всех остатков белка функции SplitValue, характеризующей то, насколько хорошо белок разделяется на домены по данной границе:

SplitValue = (intA/extAB) ∙ (intB/extAB)

intA — число пар контактирующих остатков из домена A (до границы), intB — число число пар контактирующих остатков из домена B (после границы), а extAB — число пар контактирующих остатков из разных доменов.

Пик функции SplitValue означает, что данный остаток разделяет участки последовательности, мало контактирующие друг с другом, но имеющие много контактов внутри себя.

Алгоритм позволяет построить иерархию субдоменов: после определения максимума SplitValue можно аналогично разделить на две части каждый из двух получившихся доменов. Этот процесс можно продолжать до достижения заданного минимального значения SplitValue или минимального размера домена. Модификации алгоритма также позволяют искать домены, состоящие из нескольких сегментов последовательности: для этого необходимо перебирать не одну координату точки разделения, а сразу несколько и соответствующим образом считать SplitValue.

Реализация и применение

Для реализации алгоритма был дополнен шаблон в Google Colab: была написана функция SplitValue, и ее значение было посчитано для всех остатков в последовательности. Дополненный шаблон доступен по этой ссылке. После применения алгоритма к структуре 6DLU был построен график, показывающий зависимость значения SplitValue от позиции в последовательности (Рис. 1).

**Рис. 1.** График зависимости SplitValue от позиции в последовательности.

На графике имеется один высокий и узкий пик, соответствующий позиции 288. Таким образом, по результатам работы алгоритма исследуемый белок можно разделить на два домена, слабо взаимодействующих друг с другом. Визуализация такого разделения структуры белка представлена ниже (Рис. 2).

**Рис. 2.** Разделение динамина-1 на два домена согласно алгоритму DOMAK.

В данном случае оптимальная граница между доменами проходит в конце C-концевой α-спирали домена 1 (показан красным) за несколько остатков до неструктурированной петли. Домен 1 имеет выраженную α/β-структуру с чередованием α-спиралей и β-тяжей, образующих β-лист (трехслойный αβα сэндвич). Второй домен имеет более сложную структуру и явно состоит из нескольких частей, хотя на графике присутствует только один хороший пик. Вероятно, это связано с тем, что крупный фрагмент домена 2, занимающий в структуре белка центральное положение, состоит из двух непрерывных сегментов последовательности. Данная реализация алгоритма не способна выделять такие "составные" домены, так как для них невозможно выделить один остаток, отделяющий их от остальной части белка.

Задание 2

Информацию о структурной классификации белков и об их разбиении на структурные домены можно также найти в базах данных SCOP и CATH. В данном случае, в обеих базах данных отсутствуют записи для модели 6DLU, однако они имеются для других структур, ссылающихся на ту же последовательность в Uniprot (AC Q05193). Для сравнения будут приведены домены, выделенные в модели 3SNH. Соответствующая ей последовательность имеет длину 743 и, по сравнению с 6DLU, не содержит первых трех и последних двух остатков.

SCOP

Для динамина-1 в базе данных SCOP содержится три структурных домена (уровня "family"), информация о которых представлена в таблице ниже (Табл. 1). Можно заметить, что все выделенные домены принадлежат разным классам (по составу элементов вторичной структуры). Домен "Dynamin G domain-like" примерно соответствует домену 1 из выдачи DOMAK, однако дополнительно включает первую α-спираль домена 2. Оставшиеся два домена являются частями домена 2 (Рис. 3). Как было замечено ранее, один из них состоит из двух участков последовательности, поэтому они не были разделены алгоритмом.

Ссылка на домены в базе данных SCOP

Табл. 1. Разделение динамина-1 на структурные домены согласно базе данных SCOP.

Координаты	SCOP ID	Название	Класс
32-316	8058464	Dynamin G domain-like	α/β
323-496+653-708	8058468	Dynamin stalk region-like	α
518-625	8058466	Pleckstrin-homology domain (PH domain)	β

**Рис. 3.** Структура динамина-1 с разметкой доменов согласно базе данных SCOP.

CATH

Домены, представленные в базе данных CATH, в целом, сходны с таковыми из SCOP, несмотря на несколько отличающиеся координаты (Табл. 2, Рис. 4). В CATH динамин-1 также подразделяется на N-концевой α/β-домен, α-спиральный домен из двух участков последовательности и вставленный между этими участками домен с преимущественно β-листовой структурой. Важное отличие заключается в том, что в данном случае в состав первого здесь также включается α-спираль, занимающая в укороченном белке C-концевое положение. Таким образом, в отличие от домена 1 из выдачи DOMAK, этот домен включает также "перемычку" из двух α-спиралей, которую алгоритм определил в состав домена 2.

Ссылка на домены в базе данных CATH

Табл. 2. Разделение динамина-1 на структурные домены согласно базе данных CATH.

Координаты	Суперсемейство	Топология	Архитектура	Класс
6-317+ 717-745	P-loop containing nucleotide triphosphate hydrolases	Rossmann fold	3-Layer(aba) Sandwich	Alpha Beta
318-499+ 653-716	Dynamin, middle domain	Four Helix Bundle	Up-down Bundle	Mainly Alpha
520-628	Pleckstrin-homology domain (PH domain)	PH-domain like	Roll	Mainly Beta

**Рис. 4.** Структура динамина-1 с разметкой доменов согласно базе данных CATH.

Задание 3

InterPro

В полной последовательности динамина-1 был произведен поиск эволюционных доменов с помощью веб-сервиса InterProScan на сайте базы данных InterPro. Этот инструмент использует для поиска доменов различные модели, взятые из разных баз данных, входящих в консорциум InterPro. По этой причине результат поиска может содержать много находок для одних и тех же доменов (Рис. 5).

В данном случае, наибольшее количество непересекающихся доменов было найдено по HMM-профилям базы данных Pfam. Этот набор доменов также является наиболее полным, так как покрывает почти всю последовательность за исключением C-концевого нативно неупорядоченного участка.

Информация о выделенных по профилям Pfam в последовательности динамина-1 эволюционных доменов, а также визуализация их положения в структуре белка представлены ниже (Табл. 3, Рис. 5).

Табл. 3. Эволюционные домены в последовательности динамина-1 согласно базе данных Pfam.

Координаты	ID профиля	Название (короткое имя)	Число белков
34-207	PF00350	Dynamin family (Dynamin_N)	81k
215-501	PF01031	Dynamin central region (Dynamin_M)	38k
520-621	PF00169	PH domain (PH)	299k
656-744	PF02212	Dynamin GTPase effector domain (GED)	28k

**Рис. 6.** Структура динамина-1 с выделенными эволюционными доменами согласно базе данных Pfam.

Согласно Pfam последовательность динамина-1 включает 4 эволюционных домена. С N-конца расположен большой ГТФазный домен, обеспечивающий связывание и гидролиз GTP. Согласно Pfam, чаще всего он является в белках единственным (26k белков), а также достаточно часто встречается вместе с доменами, не имеющими отношения к динамину. Судя по всему, об этих белках известно достаточно мало, но можно предположить, что они также являются ГТФазами. Следующий за Dynamin_N домен Dynamin_M встречается в динаминах и динамин-подобных белках и отвечает за их димеризацию. После него идет PH-домен. По сравнению с остальными тремя доменами, он содержится в наибольшем количестве белков и доменных архитектур. Помимо динаминов этот домен встречается в протеинкиназах, регуляторах малых G-белков, ассоциированных с цитоскелетом белках, фосфолипазах C млекопитающих и т. д. Чаще всего этот домен участвует в обеспечении белок-белковых взаимодействий или в определении клеточной локализации. В случае динамина-1 он обеспечивает связывание мембранных фосфолипидов. Наконец, C-концевой ГТФазный эффекторный домен (GED), встречающийся в динаминах и родственных им белках, активирует ГТФазную активность домена Dynamin_N в олигомерных комплексах.

В сравнении с разделениями на домены в SCOP и CATH, в Pfam центральный участок, соответствующий α-спиральному структурному домену, дополнительно разбит на Dynamin_M и GED. Это вполне ожидаемо, так как в последовательности эти два участка чаще всего сильно разнесены. Dynamin_M дополнительно содержит концевой участок структурного α/β-домена, а GED — C-концевую α-спираль белка. Домены, состоящие из одного сегмента полипептидной цепи (Dynamin_N и PH) имеют аналоги в SCOP и CATH, а занимающий краевое положение Dynamin_N был также выделен алгоритмом DOMAK (вместе с небольшим участком Dynamin_M).

Сессия pymol для этого практикума

Скрипт pymol для этого практикума