Учебный сайт Сергея Маргасюка
Uniprot и RefSeq Protein
Информация о белке 1H2A_S в базе данных UniProt
Белок 1H2A_S (PDB ID 1H2A, цепь S) — малая субъединица HydA гидрогеназы (NiFe) бактерии Desulfovibrio vulgaris str. 'Miyazaki F.'. Приведем некоторую информацию о данном белке на основе соответствующей записи в базе данных UniProt [1]:
Таблица 1: Описание малой субъединицы (HydA) гидрогеназы (NiFe) бактерии Desulfovibris vulgaris str. 'Miyazaki F'
UniProt ID |
PHNS_DESVM |
UniProt AC |
P21853; B8DPE1 |
RefSeq ID |
WP_012611422.1 |
PDB ID
| 1H2A |
Длина белка (в аминокислотных остатках) |
317 |
Молекулярная масса (в дальтонах) |
34113 |
Рекомендуемое UniProt название |
Periplasmic [NiFe] hydrogenase small subunit |
Можно отметить, что данная белковая молекула достаточно хорошо описана: в UniProt присутствует анонсированная запись, кроме того, в PDB есть 18 записей, описывающих пространственную струтуру обеих субъединиц фермента.
Рассмотрим содержимое кластеров UniRef для данного белка. Кластеры UniRef50, UniRef90 и UniRef100 содержат 71, 3 и 1 запись соответственно (включая исходный белок), при этом большая часть содержимого кластеров — белки представителей рода Desulfovibrio (56, 3 и 1 запись соответственно).
Описание результатов поиска по UniProt
Далее приведен список запросов, поданных в UniProt: желаемый результат, затем текст запроса в скобках, затем краткий комментарий по поисковой выдаче
-
Поиск по рекомендованному названию белка
(name:"periplasmic nife hydrogenase small subunit")
Из 38 полученных записей 7 имеют статус Reviewed (все они относятся к роду Desulfovibrio, поэтому в пунктах 2 и 3, где введены дополнительные требования (принадлежность к семейству Desulfovibrionaceae и принадлежность к отделу Proteobacteria соответственно), количество рецензированных записей будет таким же).
-
Поиск по рекомендованному названию среди белков из организмов того же семейства
(name:"periplasmic nife hydrogenase small subunit" taxonomy:desulfovibrionaceae)
По этому поисковому запросу найдено 15 белков, из них 14 принадлежит к типовому роду Desulfovibrio; по видимости, это связано с плохой изученностью данного семейства (из всех записей в UniProt 95295 соответствует роду Desulfovibrio, и 101120 — семейству Desulfovibrionaceae).
-
Поиск по рекомендованному названию среди белков из организмов того же отдела
(name:"periplasmic nife hydrogenase small subunit" taxonomy:proteobacteria)
По этому поисковому запросу найдено 24 записи; при этом малое отличие от результатов 1 и 2 не может быть объяснено недостаточным числом записей в базе данных (для этого отдела всего описано 20577372 белка, что намного превосходит число записей, соответствующих роду Desulfovibrio), вероятно, в данном отделе наличие NiFe гидрогеназы наиболее характерно именно для рода Desulfovibrio.
-
Поиск по названию hemoglobin
(name:hemoglobin)
По этому поисковому запросу найдена 7551 запись, из них 944 рецензированных записи. Заметим, что для гемоглобина отношение количества рецензированных записей меньше, чем у малой субъединицы NiFe гидрогеназы, очевидно, менее изученного белка: возможно, это связано со скоростью создания новых рецензий, значительно меньшей, чем скорость появления новых записей, описывающих гемоглобин.
-
Поиск по названию hemoglobin среди зеленых растений
(name:hemoglobin taxonomy:viridiplantae)
По этому поисковому запросу найдено 119 записей, из них 25 рецензированных.
-
Поиск по названию hemoglobin среди грибов
(name:hemoglobin taxonomy:fungi)
По этому поисковому запросу найдена 41 запись, из них 5 рецензированных.
-
Поиск по названию trypsine
(name:trypsin)
По этому поисковому запросу найдено 11008 записей, из них 301 рецензированная.
-
Поиск ингибиторов трипсина
(name:trypsin name:inhibitor)
По этому поисковому запросу найдено 2355 записей, из них 203 рецензированных. Отметим, что количество записей (наиболее это заметно при рассмотрении количества рецензированных записей) составляет значительную часть выдачи 7; таким образом, для точного поиска (с целью установить количество записей, описывающих данный белок) запросы, аналогичные 7, не подходят; в данном случае, например, можно добавить поиск по ID вида (mnemonic:try* name:trypsin) — предположительно, для трипсина в рецензированных записях выбирают ID, содержащий подстроку TRY.
Описание некоторых аспектов работы UniProt
Сравним запись в базе данных UniProt P21853 с записью для этой же молекулы в базе данных RefSeq [2]. Заметим, что запись в базе данных UniProt содержит большее количество информации: информацию о статьях, описывающих белок (секции RN, RP, RC, RX, RG, RA, RT, RL) список трехмерных структур белка в PDB (секция RX), обширные комментарии (секция CC), развернутое описание вторичной структуры и функций фрагментов белка (секция FT).
Рассмотрим последние 10 изменений записи UniProt P21853: первое из этих изменений выполнено 07.01.2015, последнее — 13.04.2016 [3]. За это время были добавлены ссылки на данные о трехмерной структуре (PDB IDs 4U9H и 4U9I), удалена ссылка на запись RefSeq, изменены данные о вторичной структуре (без изменения содержания: изменены в каждой строке ссылки на структуру PDB). Рассмотрим последние 50 изменений (04.09.2008 – 13.04.2016) [4], кроме описанных выше изменений можно отметить добавление ссылки на статью "Complete sequence of Desulfovibrio vulgaris str. 'Miyazaki F'.", добавление к строкам с описанием вторичной структуры ссылок на структуру PDB. Таким образом, изменение записей базы данных производится относительно медленно: с 04.11.2008 изменился формат, но не произведено существенных модификаций данных.
Опишем представление нестандартного аминокислотного остатка — пирролизина в записях UniProt. Страница помощи [5] предлагает запись Q8TTA5 [6] в качестве примера такого представления. Нестандартный аминокислотный остаток объявлен 2 раза: в секции FT (Feature Table):
FT NON_STD 356 356 Pyrrolysine. {ECO:0000250}.
и в аминокислотной последовательности белка (этот остаток обозначается буквой O):
SQ SEQUENCE 467 AA; 50392 MW; CC21E7D0E420CEF1 CRC64;
MATEYALRMG DGKRVFLTKE KILEELEAGM ANASDLGEIP DLSADEIDKL AEILMMPGKA
VSVEQGMEVP VTHDIGTIRL DGDQGNSGVG IPSSRLVGCM THERAFGADT MELGHIDYSF
KPVKPVVSNE CQAMEVCQQN MIIPLFYGAM PNMGLYYTPD GPFENPGDLM KAFKIQEAWE
SMEHAAEHLT RDTVWVMQKL FASGTDGVNF DTTAAAGDAD MYGTLHAIEA LRKEFPDMYI
EAGMAGECVL GMHGNLQYDG VTLAGLWPHQ QAPLVAKAGA NVFGPVCNTN TSKTSAWNLA
RAVNFMKAAV QASPIPCHVD MGMGVGGIPM LETPPVDAVT RASKAMVEVA GVDGIOIGVG
DPLGMPISHI MASGMTGIRA AGDLVARMQF SKNMRIGEAK EYVAKKLNVD VMDLADEHVM
RELREELDIG VITSVPGAAK GIAAKMNIEK LLDIKINSCN LFRKQIQ
Ссылки
- [1] P21853, UniProt
- [2] WP_012611422.1, RefSeq
- [3] UniProtKB Entry P21853 – Comparing version 110 to 120, UniProt
- [4] UniProtKB Entry P21853 – Comparing version 70 to 120, UniProt
- [5] Non-standard residue, UniProt
- [6] Q8TTA5, UniProt
© Сергей Маргасюк, 2015