Эволюционные домены. Банки Pfam и InterPro.
Эволюционные домены - консервативные последовательности, информация о которых получена на основании множественных выравниваний, встречаются в различных комбинациях в разных белках, часто для них предпологается какая-либо функция и связь с третичной структурой.
Структурные домены - элементы третичной структуры, являющиеся более-менее автономными подструктурами белка и проходящие фолдинг независимо от других частей белка. Грубо говоря, такой домен можно "вырезать" из белка, а третичная структура вырезанного фрагмента не изменится. Обычно такие домены определяют с помощью анализа 3D-структур.
Третий способ определить домен - зафиксировать за ним определённую функцию, неизменную для такого домена в разных белках. Для функциональных доменов в основном известно соответствие со структурными. Структурные и эволюционные домены могут не всегда совпадать, ввиду различных методов определения и разного уровня размытости критерия отнесения двух объектов к одному классу.
Таким образом, белки состоят из отдельных "блоков", соединённых в определённом порядке. Для белков, включающих одинаковые домены в одинаковом порядке можно предположить гомологию.
Pfam (Protein families) - банк семейств белковых доменов. С помощью поиска в нём производился анализ доменной структуры оксалат-декарбоксилазы Bacillus subtilis.Доменная структура белка OXDC_BACSU по данным Pfam
С помощью опции JUMP TO был произведён поиск по Pfam-у для OXDC_BACSU. Результаты представлены в таблице 1.
Табл. 1 Доменная структура OXDC_BACSU и информация о входящих в неё доменах
Cхема из Pfam: |
|||||
Пояснения к схеме |
|||||
№ | Pfam AC | Pfam ID | Полное название семейства доменов |
Положение в последовательности белка OXDC_BACSU | Клан |
1 | PF00190 | Cupin_1 | Название семейства доменов происходит от лат. cupa "маленькая бочка" - имя семейству дано по характерному структурному домену. В это семейство входят запасающие белки семян 11S и 7S, а также гермины (см. практикум 8). Эти запасающие белки являются главным источником азота для развивающегося зародыша. | 50-192 и 228 - 366 | Cupin (CL0029). Эта структура встречается во множестве разнообразных энзимов, но следует отметить также не имеющие ферментативной активности запасающие белки. Клан включает 53 семейства, из которых для семи функция неизвестна. Общее число доменов во всех семействах клана - 112082. |
Белок содержит только два идентичных домена, оба представлены не целиком (об этом говорят зубчатые края изображений доменов на схеме).
Информация о домене Cupin_1
Рис. 1 Информация о домене
Рис.2 Множественное выравнивание последовательностей, содержащих Cupin_1 (кликабельно).
Порог идентичности для окраски а.о. - 30%
Сравнение распространённости доменов среди различных организмов
В качестве исследуемого возьмём другой белок из того же семейства, так как OXDC_BACSU содержит только один вид доменов. A5B2M3_VITVI из Vitis vinifera(винограда) имеет самую сложную доменную структуру среди белков, содержащих Cupin_1 (рис.3)
Про его функцию ничего не известно.
Рис.3 доменная архитектура A5B2M3_VITVI
В состав A5B2M3_VITVI входят следующие домены:
- UBN2_2 - полипептид gag встраивающихся по механизму LTR объектов
- rve - интеграза (Integrase core domain)
- RVT_2 - обратная транскриптаза
- Cupin_1 - купин
Увы, найденная последовательность оказалась банальным транспозоном (а может быть, даже нормальным вирусом). Только зачем ему тогда купин?
Непонятно, как он оказался присоединён к белку явно вирусного происхождения. Хотя мы видим, что Cupin_1 встречается среди вирусов один раз (табл.2),
может быть, весь белок имеет вирусное происхождение.
Ниже представлены данные о таксономическом распределении rve и Cupin_1 (табл. 2, табл.3).
Интерфейс Pfam позволяет выводить информацию как в виде классического таксономического дерева, так и отображая таксоны по кругу, такой способ более нагляден (рис.4, рис.5).
Рис. 4 Представленность домена PF00190 (Cupin_1) в разных группах организмов
Таксон
|
Количество белков с доменом PF00190
|
|
Эукариоты | Зеленые растения | 1853 |
Грибы | 239 | |
Животные | 2 | |
Страминопилы | 8 | |
Амёбозои | 2 | |
Археи | 8 | |
Бактерии | 474 | |
Вирусы | 1 |
Мы можем видеть что домен не очень характерен для архей и почти не встречается у вирусов. Разнообразие эукариотических групп, в которых встречается подобная последовательность, невелико, хотя это может объясняться небольшим числом секвенированных последовательностей из большинства групп эукариотов.
Рис. 5 Представленность домена rev в разных группах организмов
Табл.3 Представленность домена PF00665 (rev) в организмах разных таксонов
Таксон
|
Количество белков с доменом PF00665
|
|
Эукариоты | Зеленые растения | 4640 |
Грибы | 1033 | |
Животные | 1791 | |
Прочие эукариоты | 811 | |
Археи | 107 | |
Бактерии | 22578 | |
Вирусы | 16470 |
Представленность домена среди различных организмов хорошо отвечает идее об его ретровирусном происхождении.
Сравнение описание мотивов в разных банках семейств по данным InterPro
С помощью INTERPRO (integrated resource of protein families, domains and functional sites, базы данных, интегрирующей много различных банков по семействам белков) был проведён поиск мотивов в OXDC_BACSU из разных баз данных (рис.6)Рис.6 Все подписи к последовательности OXDC_BACSU