Упражнение 1: доменная структура YVDD_BACSU
по данным Pfam
Pfam располагает сведениями лишь об одном семействе доменов:
Pfam AC: PF03641; Pfam ID: Lysine_decarbox. Скудное описание на сайте Pfam гласит примерно следующее: кК этому семейству доменов относятся белки, которые содержат весьма высококонсервативный мотив PGGXGTXXE
, вероятно, являющийся функционально важным. Сюда входят белки, помеченные как (предполагаемые) лизин-декарбоксилазы, часто без явных свидетельств в пользу этого. Положение в последовательности YVDD_BACSU: 46—176. Семейство входит в клан DprA (CL0349), который содержит 4 семейства доменов, функция одного из них неизвестна (название начинается с DUF).
Упражнение 2: исследование домена
Выбирать особенно не из чего: возьмем Lysine_decarbox
. Всего домен входит в 22 архитектуры, из которых 2 встречаются особенно часто: 2871 раз — только Lysine_decarbox и 545 раз — Lysine_decarbox и DUF3412. Всего же имеется 3487 последовательностей, содержащих этот домен. Всего пространственная структура определена для девяти разных белков.
Вот seed-выравнивание; ниже показан его фрагмент, представляющий интерес:
То есть в целом, казалось бы, всё хорошо, и выравнивание внушает доверие (вот только Q9X0E5 ошибся дверью, похоже), но кое-что все-таки во всем этом меня смущает. Здесь присутствует несколько белков, являющихся (см. занятие по множественным выравниваниям) близкими родственниками белка LOG (Lonely Guy) в рисе. Они являются фосфорибогидролазами, не лизин-декарбоксилазами, а совместить эти две функции белку, как ни крути, непросто. Возможно, функция этого белка менялась в процессе эволюции, и только у низших растений он выполняет функцию гидролазы, а у остальных действительно лизин-декарбоксилаза, но тогда непонятна эта пронесенная сквозь миллиарды лет консервативность. Если белок действительно менял функцию, то функциональной эта консервативность точно не может быть, разве что тогда структурной.
Упражнение 3: доменные архитектуры
Как уже было замечено в предыдущем упражнении, только одна архитектура с участием Lysine_decarbox встречается достаточно часто: это Lysine_decarbox, DUF3412. С интересом обнаружим, что домен DUF3412 встречается в 547 последовательностях и только в двух (!) из них — в свободном виде; в 545 последовательностях он встречается после Lysine_decarbox. Распределение каждого из домена по организмам:
Lysine_decarbox | DUF3412 | |
Eukaryota | 345 | не встречается |
— Viridiplantae | 196 | — |
— Fungi | 99 | — |
— Metazoa | 5 | — |
— (другие) | 45 | — |
Archaea | 61 | не встречается |
Bacteria | 3070 | 547 |
Viridae | не встречается | не встречается |
Для Lysine_decarbox количество последовательностей слишком велико, и Pfam не отображает дерево. Поэтому приведена информация о количестве последовательностей, для простоты — для обоих доменов. Собственно, видно, что домен DUF3412 — исключительно бактериальный, и это довольно интересно. (Более того, он встречается исключительно в протеобактериях.) Возможно, что все-таки в семействе доменов Lysine_decarbox смешались белки семейства LOG и, действительно, лизин-декарбоксилазы.
Упражнение 4: описание мотивов в разных банках
Самый короткий мотив — это, собственно, Lysine_decarbox (PF03641) из Pfam; самый длинный — 3.40.50.450 из CATH. Из структурных подписей в InterPro интегрированы только что упомянутая запись из CATH и c.129.1.1 из SCOP, а также 8 цепей из записи PDB. Покрытие домена Pfam: 46—176; покрытие структурного домена CATH: 2—179; покрытие структурного домена SCOP: 1—191. Получается, что покрытие структурных доменов шире.