Учебный сайт Кирилла Цуканова → Второй семестр

Эволюционные домены

Упражнение 1: доменная структура YVDD_BACSU по данным Pfam

Pfam располагает сведениями лишь об одном семействе доменов:

Pfam AC: PF03641; Pfam ID: Lysine_decarbox. Скудное описание на сайте Pfam гласит примерно следующее: кК этому семейству доменов относятся белки, которые содержат весьма высококонсервативный мотив PGGXGTXXE, вероятно, являющийся функционально важным. Сюда входят белки, помеченные как (предполагаемые) лизин-декарбоксилазы, часто без явных свидетельств в пользу этого. Положение в последовательности YVDD_BACSU: 46—176. Семейство входит в клан DprA (CL0349), который содержит 4 семейства доменов, функция одного из них неизвестна (название начинается с DUF).

Упражнение 2: исследование домена

Выбирать особенно не из чего: возьмем Lysine_decarbox. Всего домен входит в 22 архитектуры, из которых 2 встречаются особенно часто: 2871 раз — только Lysine_decarbox и 545 раз — Lysine_decarbox и DUF3412. Всего же имеется 3487 последовательностей, содержащих этот домен. Всего пространственная структура определена для девяти разных белков.

Вот seed-выравнивание; ниже показан его фрагмент, представляющий интерес:

То есть в целом, казалось бы, всё хорошо, и выравнивание внушает доверие (вот только Q9X0E5 ошибся дверью, похоже), но кое-что все-таки во всем этом меня смущает. Здесь присутствует несколько белков, являющихся (см. занятие по множественным выравниваниям) близкими родственниками белка LOG (Lonely Guy) в рисе. Они являются фосфорибогидролазами, не лизин-декарбоксилазами, а совместить эти две функции белку, как ни крути, непросто. Возможно, функция этого белка менялась в процессе эволюции, и только у низших растений он выполняет функцию гидролазы, а у остальных действительно лизин-декарбоксилаза, но тогда непонятна эта пронесенная сквозь миллиарды лет консервативность. Если белок действительно менял функцию, то функциональной эта консервативность точно не может быть, разве что тогда структурной.

Упражнение 3: доменные архитектуры

Как уже было замечено в предыдущем упражнении, только одна архитектура с участием Lysine_decarbox встречается достаточно часто: это Lysine_decarbox, DUF3412. С интересом обнаружим, что домен DUF3412 встречается в 547 последовательностях и только в двух (!) из них — в свободном виде; в 545 последовательностях он встречается после Lysine_decarbox. Распределение каждого из домена по организмам:

Lysine_decarboxDUF3412
Eukaryota345не встречается
— Viridiplantae196
— Fungi99
— Metazoa5
— (другие)45
Archaea61не встречается
Bacteria3070547
Viridaeне встречаетсяне встречается

Для Lysine_decarbox количество последовательностей слишком велико, и Pfam не отображает дерево. Поэтому приведена информация о количестве последовательностей, для простоты — для обоих доменов. Собственно, видно, что домен DUF3412 — исключительно бактериальный, и это довольно интересно. (Более того, он встречается исключительно в протеобактериях.) Возможно, что все-таки в семействе доменов Lysine_decarbox смешались белки семейства LOG и, действительно, лизин-декарбоксилазы.

Упражнение 4: описание мотивов в разных банках

Самый короткий мотив — это, собственно, Lysine_decarbox (PF03641) из Pfam; самый длинный — 3.40.50.450 из CATH. Из структурных подписей в InterPro интегрированы только что упомянутая запись из CATH и c.129.1.1 из SCOP, а также 8 цепей из записи PDB. Покрытие домена Pfam: 46—176; покрытие структурного домена CATH: 2—179; покрытие структурного домена SCOP: 1—191. Получается, что покрытие структурных доменов шире.