Базы данных

Описание хлоритдисмутазы Dechloromonas aromatica (strain RCB) по данным UniProt.

Задание включает изучение указанного белка с помощью возможностей базы данных UniProt.

Получение информации о белке

Были проанализированы данные о белке, результаты описаны в таблице

Таблица 1. Основная информация о белке CLD_DECAR из UniProt.
UniProt ID UniProt AC RefSeq ID PDB ID Длина белка (а.о.) Молекулярная масса (Да) Рекомендуемое название
CLD_DECAR Q47CX0 WP_011288310.1 или NC_007298.1 3Q08 или 3Q09 282 31613 Chlorite dismutase, альтернатива - Chlorite O(2)-lyase

CLD_DECAR является гомопентамером, в составе каждого мономера по 4 цепи, все 20 цепей обозначаются латинскими буквами от A до T. Разрешение структуры - 3 или 3.5 А.

База данных UniProt удобна для получения данных о белке, поскольку содержит множество полезной информации в структурированной форме.

Поиск кластеров, содержащих CLD_DECAR

Были рассмотрены кластеры, содержащие наш белок.

Таблица 2. Кластеры UniRef, содержащие белок CLD_DECAR.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_Q47CX0 Cluster: Chlorite dismutase 4
UniRef90 UniRef90_Q47CX0 Cluster: Chlorite dismutase 23
UniRef50 UniRef50_Q47CX0 Cluster: Chlorite dismutase 35

Подавляющее большнство белков, близких к рассматриваемому, не выделены, а только предсказаны, в некоторых случаях, даже организм, несущий этот ген, не культивируем.
UniRef позволяет узнать количество близких генов, общую последовательность в них и достоверность существования каждого из потенциальных белков. С его помощью можно выяснить, например, возможную функцию недавно открытого гена.

Поиск в UniProt

Для ознакомления с возможностями UniProt проведены типовые поисковые запросы, представленные ниже

Поиск Хлоритдисмутазы в различных группах

  • Поиск без ограничения на организм

    Текст запроса: 'name:"chlorite dismutase"'
    Количество находок в Swiss-Prot: 2
    Общее количество находок: 2615

  • Поиск у D. Aromatica

    Текст запроса: 'name:"chlorite dismutase" organism:"dechloromonas aromatica"'
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  • Поиск в семействе Azonexaceae

    Текст запроса: 'name:"chlorite dismutase" taxonomy:"Azonexaceae [2008795]"'
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 4

  • Поиск в отделе Proteobacteria

    Текст запроса: 'name:"chlorite dismutase" taxonomy:"Proteobacteria [1224]"'
    Количество находок в Swiss-Prot: 2
    Общее количество находок: 288

Поиск цитохромов

  • Поиск любого цитохрома

    Текст запроса: 'name:cytochrome NOT name:oxidase NOT name:reductase NOT name:complex NOT name:monooxygenase NOT name:binding'
    Количество находок в Swiss-Prot: 3031
    Общее количество находок: 716135

  • Поиск цитохрома Ciliophora

    Текст запроса: 'name:cytochrome NOT name:oxidase NOT name:reductase NOT name:complex NOT name:monooxygenase NOT name:binding taxonomy:"Ciliophora [5878]"'
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 145

  • Поиск цитохрома Arthropoda

    Текст запроса: 'name:cytochrome NOT name:oxidase NOT name:reductase NOT name:complex NOT name:monooxygenase NOT name:binding taxonomy:"Arthropoda [6656]"'
    Количество находок в Swiss-Prot: 126
    Общее количество находок: 43242

Поиск трипсинов

  • Поиск по слову "трипсин"

    Текст запроса: 'tripsin'
    Количество находок в Swiss-Prot: 0
    Общее количество находок: 25

  • Поиск трипсинов, исключая их ингибиторы

    Текст запроса: 'name:tripsin NOT name:inhibitor'
    Количество находок в Swiss-Prot: 0
    Общее количество находок: 24

Поиск позволяет найти необходимый белок в широком спектре случаев, хотя и не всегда помогает просто найти число белков, название которых упоминается в названиях других белков.

Сравнение записей UniProt и RefSeq

Было проведено сравнение записей о CLD_DECAR в этих базах

Обе записи содержат систематику организма, а также последовательность белка.
Запись RefSeq помимо этого содержит краткую информацию о белке: длину последовательности, его расположение в геноме и индификатор RefSeq.
Запись UniProt содержит множество индификаторов баз данных, в частности DOI, в которых содержится описание белка и его свойств. Описывается функция и структура: симметрия, лиганды, активный сайт и элементы вторичной структуры.

Записи UniProt содержат гораздо больше информации, чем записи RefSeq, поэтому последние имеет смысл использовать, когда важна только последовательность белка, в первые - когда желательно получить всю доступную информацию.

История записи.

Рассмотрена история записи CLD_DECAR.

Изначально последовательность была загружена в TrEMBL 2005-09-13 с индексом Q47CX0_DECAR рассматривалась как возможная на основе гомологий, хотя строго говоря, подобное указание появляется только в 10-й версии от 2007-07-24. В 2010 году, вероятно, белок был выделен, всвязи с чем в записи от 2010-06-15 оставлена соответствующая запись.
16 октября 2013 года появляется запись в SwissProt. Современная версия появилась после 25 обновлений, в ней произошло множество изменений: D. Aromatica оказалась переведена из семейства Rhodocyclaceae в Azonexaceae; некоторые строчки претерпели косметические изменения; Например, в одной поменялись местами два однородных члена предложения; были добавлены ссылки на источники в свойствах белка, заменены идентификаторы в других базах данных и добавлена вторичная структура цепей.

Запись о белке обновляется каждый год по несколько раз. За счёт обновлений сохраняется актуальность данных, появляется новая информация.

Локальные особенности белка

Были найдены упоминания некоторых локальных особенностей белков.

Обозначение дисульфидных мостиков на примере инсулина(между цепями):
FT   DISULFID     31     94       Interchain (between B and A chains).
FT                                {ECO:0000244|PDB:1SDB,           
FT                                ECO:0000244|PDB:4INS,           
FT                                ECO:0000244|PDB:7INS,           
FT                                ECO:0000269|PubMed:15299880,    
FT                                ECO:0000269|PubMed:1772633,        
FT                                ECO:0000269|PubMed:2905485}.          
Обозначение мостиков внутри цепи:
FT   DISULFID     93     98       {ECO:0000244|PDB:1SDB,  
FT                                ECO:0000244|PDB:4INS,     
FT                                ECO:0000244|PDB:7INS,     
FT                                ECO:0000269|PubMed:15299880, 
FT                                ECO:0000269|PubMed:1772633,   
FT                                ECO:0000269|PubMed:2905485}.  

Дисульфидные мостики обозначаются довольно логичным образом, так что найти их в белке не должно быть трудно.

Базы данных позволяют получить структурированную информацию об интересном белке или найти белок с интересующими параметрами. Умение быстро находить в них информацию важно для научной деятельности в области биоинформатики.

Использованные источники:

[1]структура из PDB
[2]Информация о белке из UniProt