Занятие 10: Эволюционные домены. Банки Pfam и InterPro.
Описание доменной архитектуры белка CDD_BACSU в соответствии с банком Pfam
На главной странице Pfam доступны различные виды поиска, в частности поиск по ID (раздел JUMP TO).
Выполнив поиск по идентификатору белка (CDD_BACSU или P19079), мы увидим следующую страницу:

Пользуясь полученными данными, заполним таблицу.
Доменная структура белка CDD_BACSU по данным Pfam
Cхема из Pfam:![]() |
|||||
Пояснения к схеме | |||||
№ | Pfam AC | Pfam ID | Полное название семейства доменов | Положение в последовательности белка CDD_BACSU | Клан |
1 | PF00383 | dCMP_cyt_deam_1 | Участок связывания цинка цитидин- и деоксицитидилат-деаминазы. Цитидин-деаминаза катализирует гидролиз цитидина, в результате чего образуются уридин и аммиак. Деоксицитидилат-деаминаза гидролизует dCMP (деоксицитидинмонофосфат) в dUMP (деоксиуридинмонофосфат). Оба фермента связывают цинк, который необходим для их каталитической активности. |
1 - 105 | Клан CDA (CL0109), содержит 16 семейств, из которых у всех известна функция. |
Изучение домена dCMP_cyt_deam_1 белка CDD_BACSU

Домен dCMP_cyt_deam_1 входит в 75 различных архитектур.
Последовательность известна для 11385 белков, содержащих домен dCMP_cyt_deam_1.
Пространственная структура определена для 15 различных белков (информация представлена в разделе Structures).
Выравнивание seed фрагментов белков, соответствующих домену dCMP_cyt_deam_1, можно сохранить из раздела Alignments:

Загрузить файл PF00383_seed.msf.
Полученное выравнивание можно, например, рассмотреть в программе JalView:

Изображение в оригинальном размере.
Как мы видим, в выравнивании имеется несколько участков с повышенной долей консервативных позиций, а также участки, где выравнивание скорее всего не имеет биологического смысла. Вполне вероятно, что рассматриваемые белки гомологичны по домену dCMP_cyt_deam_1.
Описание доменной архитектуры, в которой присутствует два или более разных домена
Белок CDD_BACSU включает единственный домен, поэтому проверим, в какие доменные архитектуры он (домен) входит (всего таких архитектур 75). Затем выберем для изучения одну из них, например, dCMP_cyt_deam_1, dCMP_cyt_deam_2:

Изображение выбранной архитектуры из Pfam:

В разделе Species доступна информация распределении числа последовательностей с рассматриваемым доменов по таксонам. Домен dCMP_cyt_deam_1 содержится в белках 2993 видов (см. файл PF00383_tree.txt), домен dCMP_cyt_deam_2 - 522 видов (см. файл PF08211_tree.txt). Используя полученные данные для каждого домена заполним таблицу представленности домена в организмах разных таксонов.

Представленность домена PF00383 в организмах разных таксонов
Из-за большого количества видов доступен лишь файл PF00383_tree.txt, в котором указано число встреч в последовательностях. Впрочем, расхождения между числом встреч в последовательностях и числом белков минимальны, что не мешает сделать вывод о распространенности домена.
Таксон | Количество встреч в последовательностях с доменом PF00383 | |
Эукариоты | Зеленые растения (Viridiplantae) | 252 |
Грибы (Fungi) | 564 | |
Животные (Metazoa) | 315 | |
Остальные эукариоты | 205 | |
Археи (Archaea) | 121 | |
Бактерии (Bacteria) | 9816 | |
Вирусы (Viruses) | 88 |
Как мы видим, домен PF00383 представлен в широком спектре организмов различных таксонов. В частности, в своём большинстве он встречается в Бактериях.
Представленность домена PF08211 в организмах разных таксонов
Таксон | Количество белков с доменом PF08211 | |
Эукариоты | Зеленые растения (Viridiplantae) | 63 |
Грибы (Fungi) | 3 | |
Животные (Metazoa) | 2 | |
Остальные эукариоты | 9 | |
Археи (Archaea) | 0 | |
Бактерии (Bacteria) | 492 | |
Вирусы (Viruses) | 0 |
Представленность домена PF08211 в организмах различных таксонов намного уже. Отсутствует у Архей и Вирусов. Лидирующее место по представленности этого домена так же, как и при рассмотрении домена PF08211, занимают Бактерии. Среди Животных данный домен представлен только у человека (Homo sapiens).
Сравнение описания мотивов в разных банках семейств по данным InterPro
На главной странице InterPro доступен поиск по различным идентификаторам, в том числе по идентификатору UniProt белка:

В результате получаем данные о мотивах с представлением их разметки:

На основе полученной информации можно сделать следующие утверждения.
- Самый коротки мотив носит название CYT_DCMP_DEAMINASES. InterPro ID: IPR016192. Мотив описан в банке PROSITE pattern. Тип мотива: консервативный сайт (Conserved_site).
- Самый длинный мотив называется Cytidine_deaminase-like. InterPro ID: IPR016193. Мотив описан в банке SuperFamily. Тип мотива: домен (Domain).
- В InterPro также интегрированы следующие структурные подписи: 1ux0A, 1ux0B, 1uwzA00 (3.40.140.10) и d1uwza_ (c.97.1.1).
- Границы структурных доменов шире, по сравнению с границами доменов Pfam (1 - 130 и 1 - 136 против 1 - 105 в Pfam).