Учебный сайт Сергея Маргасюка

Uniprot и RefSeq Protein

Информация о белке 1H2A_S в базе данных UniProt

Белок 1H2A_S (PDB ID 1H2A, цепь S) — малая субъединица HydA гидрогеназы (NiFe) бактерии Desulfovibrio vulgaris str. 'Miyazaki F.'. Приведем некоторую информацию о данном белке на основе соответствующей записи в базе данных UniProt [1]:

Таблица 1: Описание малой субъединицы (HydA) гидрогеназы (NiFe) бактерии Desulfovibris vulgaris str. 'Miyazaki F'
UniProt ID PHNS_DESVM
UniProt AC P21853; B8DPE1
RefSeq ID WP_012611422.1
PDB ID 1H2A
Длина белка (в аминокислотных остатках) 317
Молекулярная масса (в дальтонах) 34113
Рекомендуемое UniProt название Periplasmic [NiFe] hydrogenase small subunit

Можно отметить, что данная белковая молекула достаточно хорошо описана: в UniProt присутствует анонсированная запись, кроме того, в PDB есть 18 записей, описывающих пространственную струтуру обеих субъединиц фермента.

Рассмотрим содержимое кластеров UniRef для данного белка. Кластеры UniRef50, UniRef90 и UniRef100 содержат 71, 3 и 1 запись соответственно (включая исходный белок), при этом большая часть содержимого кластеров — белки представителей рода Desulfovibrio (56, 3 и 1 запись соответственно).

Описание результатов поиска по UniProt

Далее приведен список запросов, поданных в UniProt: желаемый результат, затем текст запроса в скобках, затем краткий комментарий по поисковой выдаче

  1. Поиск по рекомендованному названию белка
    (name:"periplasmic nife hydrogenase small subunit")
    Из 38 полученных записей 7 имеют статус Reviewed (все они относятся к роду Desulfovibrio, поэтому в пунктах 2 и 3, где введены дополнительные требования (принадлежность к семейству Desulfovibrionaceae и принадлежность к отделу Proteobacteria соответственно), количество рецензированных записей будет таким же).
  2. Поиск по рекомендованному названию среди белков из организмов того же семейства
    (name:"periplasmic nife hydrogenase small subunit" taxonomy:desulfovibrionaceae)
    По этому поисковому запросу найдено 15 белков, из них 14 принадлежит к типовому роду Desulfovibrio; по видимости, это связано с плохой изученностью данного семейства (из всех записей в UniProt 95295 соответствует роду Desulfovibrio, и 101120 — семейству Desulfovibrionaceae).
  3. Поиск по рекомендованному названию среди белков из организмов того же отдела
    (name:"periplasmic nife hydrogenase small subunit" taxonomy:proteobacteria)
    По этому поисковому запросу найдено 24 записи; при этом малое отличие от результатов 1 и 2 не может быть объяснено недостаточным числом записей в базе данных (для этого отдела всего описано 20577372 белка, что намного превосходит число записей, соответствующих роду Desulfovibrio), вероятно, в данном отделе наличие NiFe гидрогеназы наиболее характерно именно для рода Desulfovibrio.
  4. Поиск по названию hemoglobin
    (name:hemoglobin)
    По этому поисковому запросу найдена 7551 запись, из них 944 рецензированных записи. Заметим, что для гемоглобина отношение количества рецензированных записей меньше, чем у малой субъединицы NiFe гидрогеназы, очевидно, менее изученного белка: возможно, это связано со скоростью создания новых рецензий, значительно меньшей, чем скорость появления новых записей, описывающих гемоглобин.
  5. Поиск по названию hemoglobin среди зеленых растений
    (name:hemoglobin taxonomy:viridiplantae)
    По этому поисковому запросу найдено 119 записей, из них 25 рецензированных.
  6. Поиск по названию hemoglobin среди грибов
    (name:hemoglobin taxonomy:fungi)
    По этому поисковому запросу найдена 41 запись, из них 5 рецензированных.
  7. Поиск по названию trypsine
    (name:trypsin)
    По этому поисковому запросу найдено 11008 записей, из них 301 рецензированная.
  8. Поиск ингибиторов трипсина
    (name:trypsin name:inhibitor)
    По этому поисковому запросу найдено 2355 записей, из них 203 рецензированных. Отметим, что количество записей (наиболее это заметно при рассмотрении количества рецензированных записей) составляет значительную часть выдачи 7; таким образом, для точного поиска (с целью установить количество записей, описывающих данный белок) запросы, аналогичные 7, не подходят; в данном случае, например, можно добавить поиск по ID вида (mnemonic:try* name:trypsin) — предположительно, для трипсина в рецензированных записях выбирают ID, содержащий подстроку TRY.
  9. Описание некоторых аспектов работы UniProt

    Сравним запись в базе данных UniProt P21853 с записью для этой же молекулы в базе данных RefSeq [2]. Заметим, что запись в базе данных UniProt содержит большее количество информации: информацию о статьях, описывающих белок (секции RN, RP, RC, RX, RG, RA, RT, RL) список трехмерных структур белка в PDB (секция RX), обширные комментарии (секция CC), развернутое описание вторичной структуры и функций фрагментов белка (секция FT).

    Рассмотрим последние 10 изменений записи UniProt P21853: первое из этих изменений выполнено 07.01.2015, последнее — 13.04.2016 [3]. За это время были добавлены ссылки на данные о трехмерной структуре (PDB IDs 4U9H и 4U9I), удалена ссылка на запись RefSeq, изменены данные о вторичной структуре (без изменения содержания: изменены в каждой строке ссылки на структуру PDB). Рассмотрим последние 50 изменений (04.09.2008 – 13.04.2016) [4], кроме описанных выше изменений можно отметить добавление ссылки на статью "Complete sequence of Desulfovibrio vulgaris str. 'Miyazaki F'.", добавление к строкам с описанием вторичной структуры ссылок на структуру PDB. Таким образом, изменение записей базы данных производится относительно медленно: с 04.11.2008 изменился формат, но не произведено существенных модификаций данных.

    Опишем представление нестандартного аминокислотного остатка — пирролизина в записях UniProt. Страница помощи [5] предлагает запись Q8TTA5 [6] в качестве примера такого представления. Нестандартный аминокислотный остаток объявлен 2 раза: в секции FT (Feature Table):

    FT   NON_STD     356    356       Pyrrolysine. {ECO:0000250}.	
    		
    и в аминокислотной последовательности белка (этот остаток обозначается буквой O):
    SQ   SEQUENCE   467 AA;  50392 MW;  CC21E7D0E420CEF1 CRC64;
         MATEYALRMG DGKRVFLTKE KILEELEAGM ANASDLGEIP DLSADEIDKL AEILMMPGKA
         VSVEQGMEVP VTHDIGTIRL DGDQGNSGVG IPSSRLVGCM THERAFGADT MELGHIDYSF
         KPVKPVVSNE CQAMEVCQQN MIIPLFYGAM PNMGLYYTPD GPFENPGDLM KAFKIQEAWE
         SMEHAAEHLT RDTVWVMQKL FASGTDGVNF DTTAAAGDAD MYGTLHAIEA LRKEFPDMYI
         EAGMAGECVL GMHGNLQYDG VTLAGLWPHQ QAPLVAKAGA NVFGPVCNTN TSKTSAWNLA
         RAVNFMKAAV QASPIPCHVD MGMGVGGIPM LETPPVDAVT RASKAMVEVA GVDGIOIGVG
         DPLGMPISHI MASGMTGIRA AGDLVARMQF SKNMRIGEAK EYVAKKLNVD VMDLADEHVM
         RELREELDIG VITSVPGAAK GIAAKMNIEK LLDIKINSCN LFRKQIQ
    		

    Ссылки


    © Сергей Маргасюк, 2015