Занятие 10: Эволюционные домены. Банки Pfam и InterPro.
Описание доменной архитектуры белка CDD_BACSU в соответствии с банком Pfam
На главной странице Pfam доступны различные виды поиска, в частности поиск по ID (раздел JUMP TO).
Выполнив поиск по идентификатору белка (CDD_BACSU или P19079), мы увидим следующую страницу:
Пользуясь полученными данными, заполним таблицу.
Доменная структура белка CDD_BACSU по данным Pfam
Cхема из Pfam:![]() |
|||||
| Пояснения к схеме | |||||
| № | Pfam AC | Pfam ID | Полное название семейства доменов | Положение в последовательности белка CDD_BACSU | Клан |
| 1 | PF00383 | dCMP_cyt_deam_1 | Участок связывания цинка цитидин- и деоксицитидилат-деаминазы. Цитидин-деаминаза катализирует гидролиз цитидина, в результате чего образуются уридин и аммиак. Деоксицитидилат-деаминаза гидролизует dCMP (деоксицитидинмонофосфат) в dUMP (деоксиуридинмонофосфат). Оба фермента связывают цинк, который необходим для их каталитической активности. |
1 - 105 | Клан CDA (CL0109), содержит 16 семейств, из которых у всех известна функция. |
Изучение домена dCMP_cyt_deam_1 белка CDD_BACSU
Домен dCMP_cyt_deam_1 входит в 75 различных архитектур.
Последовательность известна для 11385 белков, содержащих домен dCMP_cyt_deam_1.
Пространственная структура определена для 15 различных белков (информация представлена в разделе Structures).
Выравнивание seed фрагментов белков, соответствующих домену dCMP_cyt_deam_1, можно сохранить из раздела Alignments:
Загрузить файл PF00383_seed.msf.
Полученное выравнивание можно, например, рассмотреть в программе JalView:
Изображение в оригинальном размере.
Как мы видим, в выравнивании имеется несколько участков с повышенной долей консервативных позиций, а также участки, где выравнивание скорее всего не имеет биологического смысла. Вполне вероятно, что рассматриваемые белки гомологичны по домену dCMP_cyt_deam_1.
Описание доменной архитектуры, в которой присутствует два или более разных домена
Белок CDD_BACSU включает единственный домен, поэтому проверим, в какие доменные архитектуры он (домен) входит (всего таких архитектур 75). Затем выберем для изучения одну из них, например, dCMP_cyt_deam_1, dCMP_cyt_deam_2:
Изображение выбранной архитектуры из Pfam:
В разделе Species доступна информация распределении числа последовательностей с рассматриваемым доменов по таксонам. Домен dCMP_cyt_deam_1 содержится в белках 2993 видов (см. файл PF00383_tree.txt), домен dCMP_cyt_deam_2 - 522 видов (см. файл PF08211_tree.txt). Используя полученные данные для каждого домена заполним таблицу представленности домена в организмах разных таксонов.
Представленность домена PF00383 в организмах разных таксонов
Из-за большого количества видов доступен лишь файл PF00383_tree.txt, в котором указано число встреч в последовательностях. Впрочем, расхождения между числом встреч в последовательностях и числом белков минимальны, что не мешает сделать вывод о распространенности домена.
| Таксон | Количество встреч в последовательностях с доменом PF00383 | |
| Эукариоты | Зеленые растения (Viridiplantae) | 252 |
| Грибы (Fungi) | 564 | |
| Животные (Metazoa) | 315 | |
| Остальные эукариоты | 205 | |
| Археи (Archaea) | 121 | |
| Бактерии (Bacteria) | 9816 | |
| Вирусы (Viruses) | 88 | |
Как мы видим, домен PF00383 представлен в широком спектре организмов различных таксонов. В частности, в своём большинстве он встречается в Бактериях.
Представленность домена PF08211 в организмах разных таксонов
| Таксон | Количество белков с доменом PF08211 | |
| Эукариоты | Зеленые растения (Viridiplantae) | 63 |
| Грибы (Fungi) | 3 | |
| Животные (Metazoa) | 2 | |
| Остальные эукариоты | 9 | |
| Археи (Archaea) | 0 | |
| Бактерии (Bacteria) | 492 | |
| Вирусы (Viruses) | 0 | |
Представленность домена PF08211 в организмах различных таксонов намного уже. Отсутствует у Архей и Вирусов. Лидирующее место по представленности этого домена так же, как и при рассмотрении домена PF08211, занимают Бактерии. Среди Животных данный домен представлен только у человека (Homo sapiens).
Сравнение описания мотивов в разных банках семейств по данным InterPro
На главной странице InterPro доступен поиск по различным идентификаторам, в том числе по идентификатору UniProt белка:
В результате получаем данные о мотивах с представлением их разметки:
На основе полученной информации можно сделать следующие утверждения.
- Самый коротки мотив носит название CYT_DCMP_DEAMINASES. InterPro ID: IPR016192. Мотив описан в банке PROSITE pattern. Тип мотива: консервативный сайт (Conserved_site).
- Самый длинный мотив называется Cytidine_deaminase-like. InterPro ID: IPR016193. Мотив описан в банке SuperFamily. Тип мотива: домен (Domain).
- В InterPro также интегрированы следующие структурные подписи: 1ux0A, 1ux0B, 1uwzA00 (3.40.140.10) и d1uwza_ (c.97.1.1).
- Границы структурных доменов шире, по сравнению с границами доменов Pfam (1 - 130 и 1 - 136 против 1 - 105 в Pfam).
