Эволюционные домены. Банки Pfam и InterPro.

Эволюционные домены - консервативные последовательности, информация о которых получена на основании множественных выравниваний, встречаются в различных комбинациях в разных белках, часто для них предпологается какая-либо функция и связь с третичной структурой.

Структурные домены - элементы третичной структуры, являющиеся более-менее автономными подструктурами белка и проходящие фолдинг независимо от других частей белка. Грубо говоря, такой домен можно "вырезать" из белка, а третичная структура вырезанного фрагмента не изменится. Обычно такие домены определяют с помощью анализа 3D-структур.

Третий способ определить домен - зафиксировать за ним определённую функцию, неизменную для такого домена в разных белках. Для функциональных доменов в основном известно соответствие со структурными. Структурные и эволюционные домены могут не всегда совпадать, ввиду различных методов определения и разного уровня размытости критерия отнесения двух объектов к одному классу.

Таким образом, белки состоят из отдельных "блоков", соединённых в определённом порядке. Для белков, включающих одинаковые домены в одинаковом порядке можно предположить гомологию.

Pfam (Protein families) - банк семейств белковых доменов. С помощью поиска в нём производился анализ доменной структуры оксалат-декарбоксилазы Bacillus subtilis.

Доменная структура белка OXDC_BACSU по данным Pfam

С помощью опции JUMP TO был произведён поиск по Pfam-у для OXDC_BACSU. Результаты представлены в таблице 1.


Табл. 1 Доменная структура OXDC_BACSU и информация о входящих в неё доменах
Cхема из Pfam:
Пояснения к схеме
Pfam AC Pfam ID Полное название семейства доменов
Положение в последовательности белка OXDC_BACSU Клан
1 PF00190 Cupin_1 Название семейства доменов происходит от лат. cupa "маленькая бочка" - имя семейству дано по характерному структурному домену. В это семейство входят запасающие белки семян 11S и 7S, а также гермины (см. практикум 8). Эти запасающие белки являются главным источником азота для развивающегося зародыша. 50-192 и 228 - 366 Cupin (CL0029). Эта структура встречается во множестве разнообразных энзимов, но следует отметить также не имеющие ферментативной активности запасающие белки. Клан включает 53 семейства, из которых для семи функция неизвестна. Общее число доменов во всех семействах клана - 112082.

Белок содержит только два идентичных домена, оба представлены не целиком (об этом говорят зубчатые края изображений доменов на схеме).

Информация о домене Cupin_1

seacr Рис. 1 Информация о домене

  • Существует 24 различных доменных архитектуры, куда входит Cupin_1
  • Последовательность известна для 3653 белков, содержащих домен. (рис. 1)
  • Для 20 из них известна пространственная структура - для некоторых белков есть более одного файла со структурой
  • Для включающих домен(ы) Cupin_1 белков было построено локальное множественное выравнивание (seed) - см. рис. 2. На нём видно, что найденные белки являются хоть и отдалёнными, но гомологами. Нужное для сохранения похожей пространственной структуры сходство оказывается не таким уж высоким.

  • alignment
    Рис.2 Множественное выравнивание последовательностей, содержащих Cupin_1 (кликабельно).
    Порог идентичности для окраски а.о. - 30%

    Сравнение распространённости доменов среди различных организмов

    В качестве исследуемого возьмём другой белок из того же семейства, так как OXDC_BACSU содержит только один вид доменов. A5B2M3_VITVI из Vitis vinifera(винограда) имеет самую сложную доменную структуру среди белков, содержащих Cupin_1 (рис.3) Про его функцию ничего не известно.

    Рис.3 доменная архитектура A5B2M3_VITVI

    В состав A5B2M3_VITVI входят следующие домены:

    Увы, найденная последовательность оказалась банальным транспозоном (а может быть, даже нормальным вирусом). Только зачем ему тогда купин? Непонятно, как он оказался присоединён к белку явно вирусного происхождения. Хотя мы видим, что Cupin_1 встречается среди вирусов один раз (табл.2), может быть, весь белок имеет вирусное происхождение.
    Ниже представлены данные о таксономическом распределении rve и Cupin_1 (табл. 2, табл.3). Интерфейс Pfam позволяет выводить информацию как в виде классического таксономического дерева, так и отображая таксоны по кругу, такой способ более нагляден (рис.4, рис.5).




    Рис. 4 Представленность домена PF00190 (Cupin_1) в разных группах организмов

    Табл. 2 Представленность домена PF00190 в организмах разных таксонов
    Таксон
    Количество белков с доменом PF00190
    Эукариоты Зеленые растения 1853
    Грибы 239
    Животные 2
    Страминопилы 8
    Амёбозои 2
    Археи 8
    Бактерии 474
    Вирусы 1

    Мы можем видеть что домен не очень характерен для архей и почти не встречается у вирусов. Разнообразие эукариотических групп, в которых встречается подобная последовательность, невелико, хотя это может объясняться небольшим числом секвенированных последовательностей из большинства групп эукариотов.



    Рис. 5 Представленность домена rev в разных группах организмов

    Табл.3 Представленность домена PF00665 (rev) в организмах разных таксонов
    Таксон
    Количество белков с доменом PF00665
    Эукариоты Зеленые растения 4640
    Грибы 1033
    Животные 1791
    Прочие эукариоты 811
    Археи 107
    Бактерии 22578
    Вирусы 16470
    Домен rev встречается у 4261 вида и входит в 846 различных архитектур.
    Представленность домена среди различных организмов хорошо отвечает идее об его ретровирусном происхождении.

    Сравнение описание мотивов в разных банках семейств по данным InterPro

    С помощью INTERPRO (integrated resource of protein families, domains and functional sites, базы данных, интегрирующей много различных банков по семействам белков) был проведён поиск мотивов в OXDC_BACSU из разных баз данных (рис.6)


    Рис.6 Все подписи к последовательности OXDC_BACSU

  • Самый короткий мотив - Cupin_1(PF00190) - описан в Pfam
  • Самый длинный мотив - RmlC_like_cupin (SSF51182) из банка SUPERFAMILY. Он занимает практически всю длину белка (8-379)
  • Какие структурные подписи интегрированы в InterPro? bicupin_oxalic(TIGR03404) из TIGRFAMs, 14 - 379 TIGRFAMs, RmlC-like jelly roll fold (x2) из GENE3D (G3DSA:2.60.120.10), Cupin_1 (x2) из SMART (SM00835)
  • Отличаются ли границы структурных доменов от границ доменов Pfam? Да, отличаются. Так, мотив Cupin_1 из SMART длиннее на несколько аминокислотных остатков (в обе стороны), чем таковой из Pfam.