Базы данных
Описание хлоритдисмутазы Dechloromonas aromatica (strain RCB) по данным UniProt.
Задание включает изучение указанного белка с помощью возможностей базы данных UniProt.
Получение информации о белке
Были проанализированы данные о белке, результаты описаны в таблице
UniProt ID | UniProt AC | RefSeq ID | PDB ID | Длина белка (а.о.) | Молекулярная масса (Да) | Рекомендуемое название |
---|---|---|---|---|---|---|
CLD_DECAR | Q47CX0 | WP_011288310.1 или NC_007298.1 | 3Q08 или 3Q09 | 282 | 31613 | Chlorite dismutase, альтернатива - Chlorite O(2)-lyase |
CLD_DECAR является гомопентамером, в составе каждого мономера по 4 цепи, все 20 цепей обозначаются латинскими буквами от A до T. Разрешение структуры - 3 или 3.5 А.
База данных UniProt удобна для получения данных о белке, поскольку содержит множество полезной информации в структурированной форме.
Поиск кластеров, содержащих CLD_DECAR
Были рассмотрены кластеры, содержащие наш белок.
Раздел UniRef | ID кластера | Название кластера | Размер кластера |
---|---|---|---|
UniRef100 | UniRef100_Q47CX0 | Cluster: Chlorite dismutase | 4 |
UniRef90 | UniRef90_Q47CX0 | Cluster: Chlorite dismutase | 23 |
UniRef50 | UniRef50_Q47CX0 | Cluster: Chlorite dismutase | 35 |
Подавляющее большнство белков, близких к рассматриваемому, не выделены, а только предсказаны, в некоторых случаях, даже организм, несущий этот ген, не культивируем.
UniRef позволяет узнать количество близких генов, общую последовательность в них и достоверность существования каждого из потенциальных белков.
С его помощью можно выяснить, например, возможную функцию недавно открытого гена.
Поиск в UniProt
Для ознакомления с возможностями UniProt проведены типовые поисковые запросы, представленные ниже
Поиск Хлоритдисмутазы в различных группах
Поиск без ограничения на организм
Текст запроса: 'name:"chlorite dismutase"'
Количество находок в Swiss-Prot: 2
Общее количество находок: 2615
Поиск у D. Aromatica
Текст запроса: 'name:"chlorite dismutase" organism:"dechloromonas aromatica"'
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
Поиск в семействе Azonexaceae
Текст запроса: 'name:"chlorite dismutase" taxonomy:"Azonexaceae [2008795]"'
Количество находок в Swiss-Prot: 1
Общее количество находок: 4
Поиск в отделе Proteobacteria
Текст запроса: 'name:"chlorite dismutase" taxonomy:"Proteobacteria [1224]"'
Количество находок в Swiss-Prot: 2
Общее количество находок: 288
Поиск цитохромов
Поиск любого цитохрома
Текст запроса: 'name:cytochrome NOT name:oxidase NOT name:reductase NOT name:complex NOT name:monooxygenase NOT name:binding'
Количество находок в Swiss-Prot: 3031
Общее количество находок: 716135
Поиск цитохрома Ciliophora
Текст запроса: 'name:cytochrome NOT name:oxidase NOT name:reductase NOT name:complex NOT name:monooxygenase NOT name:binding taxonomy:"Ciliophora [5878]"'
Количество находок в Swiss-Prot: 1
Общее количество находок: 145
Поиск цитохрома Arthropoda
Текст запроса: 'name:cytochrome NOT name:oxidase NOT name:reductase NOT name:complex NOT name:monooxygenase NOT name:binding taxonomy:"Arthropoda [6656]"'
Количество находок в Swiss-Prot: 126
Общее количество находок: 43242
Поиск трипсинов
Поиск по слову "трипсин"
Текст запроса: 'tripsin'
Количество находок в Swiss-Prot: 0
Общее количество находок: 25
Поиск трипсинов, исключая их ингибиторы
Текст запроса: 'name:tripsin NOT name:inhibitor'
Количество находок в Swiss-Prot: 0
Общее количество находок: 24
Поиск позволяет найти необходимый белок в широком спектре случаев, хотя и не всегда помогает просто найти число белков, название которых упоминается в названиях других белков.
Сравнение записей UniProt и RefSeq
Было проведено сравнение записей о CLD_DECAR в этих базах
Обе записи содержат систематику организма, а также последовательность белка.
Запись RefSeq помимо этого содержит краткую информацию о белке: длину последовательности,
его расположение в геноме и индификатор RefSeq.
Запись UniProt содержит множество индификаторов баз данных,
в частности DOI, в которых содержится описание белка и его свойств.
Описывается функция и структура: симметрия, лиганды, активный сайт и элементы вторичной структуры.
Записи UniProt содержат гораздо больше информации, чем записи RefSeq, поэтому последние имеет смысл использовать, когда важна только последовательность белка, в первые - когда желательно получить всю доступную информацию.
История записи.
Рассмотрена история записи CLD_DECAR.
Изначально последовательность была загружена в TrEMBL 2005-09-13 с индексом Q47CX0_DECAR рассматривалась как возможная на основе гомологий,
хотя строго говоря, подобное указание появляется только в 10-й версии от 2007-07-24. В 2010 году, вероятно,
белок был выделен, всвязи с чем в записи от 2010-06-15 оставлена соответствующая запись.
16 октября 2013 года появляется запись в SwissProt.
Современная версия появилась после 25 обновлений, в ней произошло множество изменений:
D. Aromatica оказалась переведена из семейства Rhodocyclaceae в Azonexaceae; некоторые строчки претерпели косметические изменения;
Например, в одной поменялись местами два однородных члена предложения; были добавлены ссылки на источники в свойствах белка, заменены идентификаторы в других базах данных и добавлена вторичная структура цепей.
Запись о белке обновляется каждый год по несколько раз. За счёт обновлений сохраняется актуальность данных, появляется новая информация.
Локальные особенности белка
Были найдены упоминания некоторых локальных особенностей белков.
Обозначение дисульфидных мостиков на примере инсулина(между цепями): FT DISULFID 31 94 Interchain (between B and A chains). FT {ECO:0000244|PDB:1SDB, FT ECO:0000244|PDB:4INS, FT ECO:0000244|PDB:7INS, FT ECO:0000269|PubMed:15299880, FT ECO:0000269|PubMed:1772633, FT ECO:0000269|PubMed:2905485}. Обозначение мостиков внутри цепи: FT DISULFID 93 98 {ECO:0000244|PDB:1SDB, FT ECO:0000244|PDB:4INS, FT ECO:0000244|PDB:7INS, FT ECO:0000269|PubMed:15299880, FT ECO:0000269|PubMed:1772633, FT ECO:0000269|PubMed:2905485}.
Дисульфидные мостики обозначаются довольно логичным образом, так что найти их в белке не должно быть трудно.
Базы данных позволяют получить структурированную информацию об интересном белке или найти белок с интересующими параметрами. Умение быстро находить в них информацию важно для научной деятельности в области биоинформатики.
Использованные источники:
[1]структура из PDB[2]Информация о белке из UniProt