Знакомство с Uniprot на примере B8GZM2

Вернуться на страницу семестра

Белок B8GZM2 — это белок бактерии Caulobacter crescentus (strain NA1000 / CB15N). Ниже следует её систематика:

Bacteria; 
  Proteobacteria; 
    Alphaproteobacteria; 
      Caulobacterales;
        Caulobacteraceae; 
          Caulobacter 

Этот белок отвечает за преобразование сигнала во время дифференциации клеток бактерии в swarmer-стадию и stalked-стадию в течение жизненного цикла, изображённого на рис.1 [1]. А также данный белок катализирует образование 2 молекул GTP (гуанозинтрифосфат).

Рисунок 1. Жизненный цикл Caulobacter

Аминокислотная последовательность белка

>sp|B8GZM2|PLED_CAUCN Response regulator Caulobacter crescentus (strain NA1000 / CB15N) MSARILVVDDIEANVRLLEAKLTAEYYEVSTAMDGPTALAMAARDLPDIILLDVMMPGMD GFTVCRKLKDDPTTRHIPVVLITALDGRGDRIQGLESGASDFLTKPIDDVMLFARVRSLT RFKLVIDELRQREASGRRMGVIAGAAARLDGLGGRVLIVDDNERQAQRVAAELGVEHRPV IESDPEKAKISAGGPVDLVIVNAAAKNFDGLRFTAALRSEERTRQLPVLAMVDPDDRGRM VKALEIGVNDILSRPIDPQELSARVKTQIQRKRYTDYLRNNLDHSLELAVTDQLTGLHNR RYMTGQLDSLVKRATLGGDPVSALLIDIDFFKKINDTFGHDIGDEVLREFALRLASNVRA IDLPCRYGGEEFVVIMPDTALADALRIAERIRMHVSGSPFTVAHGREMLNVTISIGVSAT AGEGDTPEALLKRADEGVYQAKASGRNAVVGKAA

Таблица 1. Идентификаторы белка в различных базах данных и общие сведения

Uniprot IDPLED_CAUCN
Uniprot ACB8GZM2
Refseq ID WP_010920320.1; NC_011916.1; YP_002517919.1
PDB ID 1W25; 2V0N; 2WB4
Длина (в аминокислотных остатках)454
Молекулярная масса (в дальтонах)49624
Рекомендованное Unirpot названиеResponse regulator PleD
Данные таблицы были получены из базы данных Uniprot [2].

1.Открыв, текстовый документ (кнопка FORMAT --> Text), вы можете увидеть поля базы данных Swiss-Prot
ID — идентификатор в текущем релизе. Всегда один, но может меняться от релиза к релизу.
AC — так называемый «номер доступа» (Accession number). Раз появившись, не исчезнет (поэтому именно на AC надо указывать при использовании данных Swiss-Prot в публикациях). Может быть не один (по разным причинам).
DE — "description", описание белка. В последних релизах имеет внутреннюю структуру, т.е. делится на подполя (краткое рекомендуемое название, полное рекомендуемое название, синонимы и др.)
OS — видовое название организма — источника данного белка
OC — таксономия организма (в соответствии с текущим стандартом NCBI): Bacteria; Proteobacteria; Alphaproteobacteria; Caulobacterales; Caulobacteraceae; Caulobacter.
DR — ссылки на другие базы данных, в том числе Refseq ID, PDB ID
FT — "feature table", локальные особенности последовательности
SQ — "sequence", аминокислотная последовательность, количество аминокислот и молекулярная масса белка (454 AA; 49624 MW)
2. Белок содержит 2 цепи, содержит как альфа, так и бета-структуры. Содержит сложно устроенный лиганд — C2E в количестве 3 штук: формула - C20H24N10O14P2. C2E представлен на рис. 2 [3]. Также среди лигандов белка - магний и цинк.

Рисунок 2. Лиганд C2E

Таблица 2. Kластеры Uniref белка B8GZM2

КластерИдентификатор кластераКоличество белков
UniRef100UniRef100_B8GZM22
UniRef90 UniRef90_B8GZM27
UniRef50 UniRef50_B8GZM2731

В таблице 2 показано, сколько белков в кластерах Uniref50, Uniref90, Uniref100. Кластеры это группа белков, объединённых по своей схожести. В кластере Uniref100 содержится 2 белка, на 100% похожих с анализируемым - белок содержится в базе данных несколько раз, но он встречается у разных штаммов бактерии: Caulobacter crescentus (strain NA1000 / CB15N) и Caulobacter crescentus (strain ATCC 19089 / CB15). Белки кластера Uniref90 все так же встречаются у Caulobacter crescentus. Uniref50 - уже у представителей других родов [4].

Таблица 3. Поисковые запросы в базе данных Uniprot

Цель запросаТекст в поисковой строкеБелков нашлосьБелков из раздела Reviewed
1. По рекомендованному названию белкаname:"response regulator pled"10962
2. То же, но среди белков данного организмаname:"response regulator pled" organism:"caulobacter crescentus strain na1000 cb15n"11
3. То же, но среди белков организмов того же семейства name:"response regulator pled" taxonomy:"Caulobacteraceae [76892]"252
4. То же, но среди белков организмов того же отделаname:"response regulator pled" taxonomy:"Proteobacteria [1224]"8252
5. Лизоцим без ограничения на организмыname:lysozyme17921229
6. Лизоцим у инфузорийname:lysozyme taxonomy:"Ciliophora [5878]"150
7. Лизоцим у зелёных растенийname:lysozyme taxonomy:"Viridiplantae [33090]"173
8. Лизоцим у грибовname:lysozyme taxonomy:"Fungi [4751]"1832
9. Трипсинname:"trypsin"13241310
10. Ингибиторы трипсинаname:trypsin inhibitor3010215

Комментарии к результатам поиска таблицы 3:
1-4: Знание таксонов помогает ускорить поиск нужного белка. Для определения таксонов был использован сайт NCBI Taxonomy [5].
5-8: Лизоцим — антибактериальный агент, фермент класса гидролаз, разрушающий клеточные стенки бактерий путём гидролиза пептидогликана клеточной стенки бактерий муреина [6]. Сравнивая зелёные растения, представителей простейших - инфузорий и грибы, мы видим, что именно у грибов белок данного типа встречается чаще.
9-10: Несмотря на то, что ингибиторы трипсина это меньшая часть результатов поиска - около 23%, большая часть файлов Swiss-Prot, найденных по запросу "трипсин" - ингибиторы трипсина.

Сравнение информации, предоставляемой записью RefSeq [7], от информации Uniprot [2]

Информация из Uniprot имеет ссылки на другие источники, называет сразу несколько дат секвенирования, даёт более полное представление о всех ресурсах, где можно подробнее изучить данный белок. В базе данных Uniprot очень удобно то, что в файле описываются особенности белка: в строках FT описана вторичная структура, домены, цепи (хотя есть расхождения между PDB, который говорит о 2 цепях в белке, и Uniprot, который выделяет 1 цепь). Описание белка довольно похоже: PleD family two-component system response regulator [Caulobacter vibrioides] (NCBI) и Response regulator PleD (Uniprot). Оба ресурса дают одинаковую систематику до рода, но вид называют по-разному: Caulobacter vibrioides и Caulobacter crescentus (на NCBI это название приводят, но чаще используют написанное ранее). Оба источника предоставляют порядок аминокислот белка в однобуквенном коде, но Uniprot дополнительно называет молярную массу белка.

Изучение истории изменений записи Uniprot (кнопка History)

Рассмотрим историю изменений записей о белке B8GZM2 [8]. На данный момент произошло всего 58 изменений в первоначальном файле, выложенном 3 марта 2009 года. До июня 2010 года записи хранились в автоматическом банка данных TrEMBL, но, начиная того времени, остальные записи проверялись экспертами и хранились в курируемой базе данных Swiss-Prot. После первой же проверки было добавлено большое количество данных о локальных особенностях последовательности (FT). Интересно, что, например, для инсулина - намного более известного белка - первая запись была сделана 1 ноября 1988 сразу в базе Swiss-Prot и обновлений записи до наших дней произошло 221(!) [9].

Обозначения в Uniprot некоторых явлений

Нестандартные аминокислотные остатки — NON_STD, код указан в таблице 4.
Посттрансляционная модификация остатка — MOD_RES, посттрансляционно образованные аминокислотных связей — CROSSLNK.
Альтернативный сплайсинг — Event=Alternative splicing, Alternative initiation с строке CC.
Дисульфидные связи — DISULFID.
Варианты последовательности — VAR_SEQ [10].

Таблица 4. Коды аминокислот, в том числе нестандартных [10].

Однобуквенный код Трёхбуквенный код Аминокислота
A Ala   Alanine
R Arg   Arginine
N Asn   Asparagine
D Asp   Aspartic acid
C Cys   Cysteine
Q Gln   Glutamine
E Glu   Glutamic acid
G Gly   Glycine
H His   Histidine
I Ile   Isoleucine
L Leu   Leucine
K Lys   Lysine
M Met   Methionine
F Phe   Phenylalanine
P Pro   Proline
S Ser   Serine
T Thr   Threonine
W Trp   Tryptophan
Y Tyr   Tyrosine
V Val   Valine
O Pyl   Pyrrolysine
U Sec   Selenocysteine
B Asx   Aspartic acid or Asparagine
Z Glx   Glutamic acid or Glutamine
X Xaa   Any amino acid




© Миронова Екатерина 2017 год