БАНК UNIPROT

На данной страничке представлена общая информация о белке Рибонуклеазе J (Uniprot ID - RNJ1_BACSU), полученная из базы данных Uniprot. Основные данные предствлены в Таблице 1.

Таблица 1. Основыне данные
Uniprot IDRNJ1_BACSU
Uniprot ACQ45493
Refseq IDNP_389336.1
WP_003245660.1
PDB ID3ZQ4
Длина белка555 AA
Молекулярная масса в дальтонах61517
Рекомендуемое название Full=Ribonuclease J1 {ECO:0000255|HAMAP-Rule:MF_01491}
Short=RNase J1 {ECO:0000255|HAMAP-Rule:MF_01491}
EC=3.1.-.- {ECO:0000255|HAMAP-Rule:MF_01491}

Рибонуклеаза J встречается у сенной палочки (Bacillus subtilis, таксономическое положение данной бактерии показано в Таблице 2) и относится к классу гидролаз, ферментов катализирующих гидролиз ковалентной связи. Общий вид реакции, катализируемой гидролазой выглядит следующим образом:
A–B + H2O > A–OH + B–H
Рибонуклеаза J обаладает эндонуклеазной и 5'-3' экзонуклеазной активностью, играет роль в стабилизации и разрушении р-РНК и м-РНК. В клетке белок локализован в цитоплазме. Принадлежит к суперсемейству металло-бета-лактамаз.

Действующая версия записи о данном белка датирована 15 февраля 2017 года и является 113 по счету. Первая версия представляла из себя белковую последовательность от 1 ноября 1996 года (подробнее об изменениях вносимых в запись см. в разделе History). Белок иммет статус Reviewed, его существование подтверждено эксперементальными данными[1].

Таблица 2. Таксономическое положение Bacillus subtilis[2].
SUPRERKINGDOM Bacteria
PHYLUM Firmicutes
CLASS Bacilli
ORDERBacillales
FAMILY Bacillaceae
GENUS Bacillus
SPECIES GROUPBacillus subtilis group
SPECIES Bacillus subtilis
SUBSPECIESBacillus subtilis subsp. subtilis
Bacillus subtilis subsp. subtilis str. 168

Длина последовательности данного белка составляет 555 аминокислотных остатков (последовательность белка в FASTA формате представлена в Таблице 3.) Белок состоит из 4 цепей, в его состав входят лиганды: по одному иону кальция (Ca2+) и двум ионам цинка (Zn2+) на субъединицу.

Пока не совсем ясно, образует ли этот белок гомодимер или входит в состав более крупного комплекса. Более ранние исследования противоречат более поздим. Существует также вероятность взаимодействия Рибонуклеаза J1 с J2 с образованием гетеротетрамера, функционирующего как комплекс РНК-дегидросомы. Однако возможность существования такого комплекса опровергается в одном из исследовании - не находится никаких доказательств его существования (PubMed:20025672)[1].

Таблица 3. Последовательность белка в FASTA формате[1].
 
>sp|Q45493|RNJ1_BACSU Ribonuclease J1 
MKFVKNDQTAVFALGGLGEIGKNTYAVQFQDEIVLIDAGIKFPEDELLGIDYVIPDYTYL
VKNEDKIKGLFITHGHEDHIGGIPYLLRQVNIPVYGGKLAIGLLRNKLEEHGLLRQTKLN
IIGEDDIVKFRKTAVSFFRTTHSIPDSYGIVVKTPPGNIVHTGDFKFDFTPVGEPANLTK
MAEIGKEGVLCLLSDSTNSENPEFTMSERRVGESIHDIFRKVDGRIIFATFASNIHRLQQ
VIEAAVQNGRKVAVFGRSMESAIEIGQTLGYINCPKNTFIEHNEINRMPANKVTILCTGS
QGEPMAALSRIANGTHRQISINPGDTVVFSSSPIPGNTISVSRTINQLYRAGAEVIHGPL
NDIHTSGHGGQEEQKLMLRLIKPKFFMPIHGEYRMQKMHVKLATDCGIPEENCFIMDNGE
VLALKGDEASVAGKIPSGSVYIDGSGIGDIGNIVLRDRRILSEEGLVIVVVSIDMDDFKI
SAGPDLISRGFVYMRESGDLINDAQELISNHLQKVMERKTTQWSEIKNEITDTLAPFLYE
KTKRRPMILPIIMEV
   

РАБОТА С КЛАСТЕРАМИ БЕЛКА

  • Кластер Uniref100:
    UniRef100 сочетает в себе идентичные последовательности и суб-фрагментов с 11 или более остатков из любого организма в одну запись UniRef.

    Белок Ribonuclease J1 входит в кластер Ribonuclease J1(100%) (Cluster ID: UniRef100_Q45493). Помимо рассматриваемого в данной работе белка, в этот кластер входят еще 9 последовательностей (общее число последовательностей в кластере - 10). Из 10 последовательностей лишь одна (рассатриваемая мной) входит в категорию Reviewed. Найденные белки встречаются у различных штаммов бактерии сенной палочки (Bacillus subtilis ) и пневмококка (Streptococcus pneumoniae). При этом длина последовательности кластера колеблется от 350 до 558, однако наиболее часто встречаемое число аминокислотных остатков в составе последовательности - 555 (как и у рассматриваемого белка).

    Любопытной особенностью кластера явлется столь большой разброс в длине последовательностей, при этом последоваетльность с 350 аминокислотными остатками встречается у пневмококка (Uniprot ID: A0A0T8PS06_STREE). Этот белок носит название Metallo-beta-lactamase superfamily protein 1 и кодируется тем же геном, что и Ribonuclease J1 (rnjA). Данный белок содержит фрагмент той же самой аминокислотной последовательности, что и Ribonuclease J1, начиная с 206 аминокислотного остатка (см. Таблица 3).

  • Кластер Uniref90:
    UniRef90 составляется путем объединения последовательностей, которые по меньшей мере на 90% идентичны последовательностям UniRef100, а также последовательностей, совпадающих с самой длинной последовательностью UniRef100 на 80%.

    Ribonuclease J1 входит в кластер Ribonuclease J1(90%) (Cluster ID: UniRef90_Q45493). В состав кластера входит 104 последовательности, из них к категории Reviewed относится лишь рассматриваемый белок (RNJ1_BACSU). Длина последовательности варьирует от 161 до 579 аминокислотных остатков ( в кластер входят два небольших фрагмента последовательности: c длиной 161 (UniProt ID: A0A0D7X9Z9_BACAM) и 195 (UniProt ID: A0A0D7XCJ8_BACAM), а также 438 (с пометкой partial - Uniprot AC:UPI00036C0019)). При этом наиболее распространенная длина последовательности - 555.

    Помимо белков Ribonuclease J в класере присутствует также белок Metallo-beta-lactamase superfamily protein 1, описанный выше, и белок YkqC из организма Bacillus atrophaeus UCMB-5137, информации о котором содержится мало.

  • Кластер Uniref50:
    UniRef50 составляется путем объединения последовательностей, которые по меньшей мере на 50% идентичность последовательности UniRef90, а также последовательностей, совпадающих на 80% с самой длинной последовательностью в кластере.

    Белок Ribonuclease J1 входит в кластер Ribonuclease J1(50%) (Cluster ID: UniRef50_Q45493). В состав кластера входит 941 последовательность, из них к категории Reviewed относится лишь рассматриваемый белок (RNJ1_BACSU), а 277 - UniParc. Наибольшая длина последовательности, встречающаяся в этом кластере домтигает 654 аминокислотных остатков[1].

Таблица 4. Кластеры белка UniRef.
Назание кластера (+ID)Число последовательностей в кластере
UniRef100
UniRef100_Q45493
10
UniRef90
UniRef90_Q45493
104
UniRef50
UniRef50_Q45493
941

ПОИСК В UNIPROT

  1. Поиск по рекомендованному полному названию (Ribonuclease J1):
    Текст запроса: name:"ribonuclease j1"
    Найден 171 белок, из них 15 из раздела Reviewed.

  2. Поиск по рекомендованному краткому названию (RNase J1):
    Текст запроса: name:"rnase j1"
    Найдено 40 белков, из них 15 из раздела Reviewed.

  3. Поиск по рекомендованному полному названию (Ribonuclease J1) среди белков организма (bacillus subtilis strain 168):
    Текст запроса: name:"ribonuclease j1" AND organism:"Bacillus subtilis (strain 168)"
    Найден один, рассматриваемый в данной работе белок, относящийся к категории Reviewed.

  4. Поиск по рекомендованному краткому названию (RNase J1) среди белков своего организма (bacillus subtilis strain 168):
    Текст запроса: name:"rnase j1" organism:"Bacillus subtilis strain 168"
    Найден один, рассматриваемый в данной работе белок, относящийся к категории Reviewed.

  5. Поиск по рекомендованному полному названию (Ribonuclease J1) среди белков семейства (Bacillaceae):
    Текст запроса: name:"ribonuclease j1" taxonomy:"Bacillaceae [186817]"
    Найдено 8 белков из которых 1 относится к категории Reviewed (UniPort ID: RNJ1_BACSU). Длина последовательности варьирует от 89 до 573 аминокислотных остатков. При этом медиана длины данных белков составляет 327, 5.

  6. Поиск по рекомендованному краткому названию (RNase J1) среди белков семейства (Bacillaceae):
    Текст запроса: name:"rnase j1" taxonomy:"Bacillaceae [186817]"
    Найдено 12 белков из которых 1 относится к категории Reviewed (UniPort ID: RNJ1_BACSU). Длина последовательностей варьирует в пределах 555-556 аминокислотных остатков.

  7. Поиск по рекомендованному полному названию (Ribonuclease J1) среди белков отдела (Firmicutes):
    Текст запроса: name:"ribonuclease j1" taxonomy:"Firmicutes [1239]"
    Найдено 76 белков из которых 15 относится к категории Reviewed. Длина последовательности варьирует от 47 до 620 аминокислотных остатков.

  8. Поиск по рекомендованному краткому названию (RNase J1) среди белков отдела (Firmicutes):
    Текст запроса: name:"rnase j1" taxonomy:"Firmicutes [1239]"
    Найдено 36 белков из которых 15 относится к категории Reviewed. Длина последовательностей варьирует в пределах 551-620 аминокислотных остатков.

В соответсвии с этими сеансами поиска можно сделать несколько следующих выводов:
  • Наиболее часто в базе данных UniProt используются полные названия белков, однако краткие названия также широко распространены.
  • Наиболее изучены белки Ribonuclease J1 из отдела Firmicutes, но не из семейства Bacillaceae.
  • В отделе наблюдается широкое разнообразие длинн последовательностей данного белка.

ОБЩИЙ ПОИСК

  1. Поиск названию Myosin:
    Текст запроса: name:myosin
    Найдено 23 037 белков, из них 464 из раздела Reviewed. Белки встречаются у совершенно различных организмов, и отличаются друг от друга длиной последовательности на несколько тысяч аминокилотных остатков. Наиболее популярный организм - человек (Homo sapiens (Human)) - 448 последовательностей.

  2. Поиск названию Myosin среди животных (Metazoa):
    Текст запроса: name:myosin taxonomy:"Metazoa [33208]"
    Найдено 16721 белков, из них 339 из раздела Reviewed. Наиболее популярный организм - человек (Homo sapiens (Human))

  3. Поиск названию Myosin среди грибов (Fungi):
    Текст запроса: name:myosin taxonomy:fungi
    Найдено 1800 белков, из них 57 из раздела Reviewed. Наиболее популярный организм - Saccharomyces cerevisiae

  4. Поиск названию Trypsin:
    Текст запроса: name:trypsin
    Найдено 14034 белков, из них 310 из раздела Reviewed.

  5. Поиск ингибиторов трипсина:
    Текст запроса: name:trypsin name:inhibitor
    Найдено 2984 белков, из них 209 из раздела Reviewed.

UNIPROT HISTORY

UniProt предоставляет возможность изучения истории изменения записи о данном белке. Рассматривая историю можно узнать в каком направлении шло изучение белка, насколько исследователи заинтересованы в данном белке, какими темпами шло его изучение, что предстоит сделать в дальнейшем.

Текущая запись датирована 15 февраля 2017 года и представляет из себя 113 версию записи. Первая версия представляла из себя версию последовательности и была добавлена в базу данных первого ноября 1996 года.

Описание истории изменения записи:

  • Первая запись, добавленная 1 ноября 1996 года была сгенерированна при помощи автоматического банка данных TrEMBL. Данная запись не содержала большое количество информации: Uniprot ID (Q45493 - отличается от текущего), длина последовательности, молекулярная масса, сама последовательность, статус записи (PRELIMINARY - предварительная), дата генерации TrEMBL, кодирующий ген ( позже был переименован из YKQC в rnjA), организм, содержавший данный белок (примечательно как изменилась за десять лет классификация с PROKARYOTA; FIRMICUTES; ENDOSPORE-FORMING RODS AND COCCI; BACILLACEAE. на Bacteria; Firmicutes; Bacilli; Bacillales; Bacillaceae; Bacillus.), авторы работы и публикация. Комментарии не содержал существенной информации. Присутствовала единственная ссылка на базу данных EMBL.

    Любопытно также что первоначально белок был добален в базу данных EMBL/GENBANK/DDBJ DATA BANKS в июне 1996. Первоначально также белок считался гипотетическим с гипотетической молярной массой, имя ему еще не было присвоено.

    Насколько можно судить визуально, за 10 лет также несколько поменялся формат самой записи в текстовом формате.

  • Ровно через год (1 ноября 1997) данная запись была модифицирована и дополнена, переведена в категорию Reviewed, рецензирована Swiss-Prot. При этом белку был присвоен новый Uniprot ID (YKQC_BACSU), запись была переведена в категорию STANDARD. Была убарана информация о публикациии и дополнен комментарий (принадлежность белка к семейству UPF0036). Были добавлены две ссылки на базы данных SUBTILIST и PROSITE.

  • Впоследствии запись многократно подвегалась изменениям (текущая версия является 113). Последними внесенными изменениями были изменения в ссылках на другие базы данных, в частности изменены ссылки на базу данных GO и убрана ссылка на базу данных PANTHER.

  • Сравнивая последнюю версию с первой, можно заметить, что все строки из первоначальной записи (всего их было чуть больше 20 без последовательности), исключая комментарий и поледовательность так или иначе были изменены. Были добавлены:

    1. Различные названия белка
    2. Полное новое название кодирующего гена
    3. Современная классификация организма, содержащего белок
    4. Информация о многочисленных публикациях
    5. В комментарий была добавлена информация о функциях белка, его компонентах и структуре, локализация в клетке, принадлежность к семейству
    6. Ссылки на многочиленные базы данных с ID белка в этих базах
    7. Информация о вторичной структуре и т.д.

  • Интересно также, что не смотря на многократные изменения записи, сама последовательность в FASTA-формате не изменялась ни разу с момента ее добавления в 1996[1].

REFSEQ и UBNIPROT

Изучаемому в данной работе белку соответсвует два записи в RefSeq (Refseq ID: NP_389336.1; WP_003245660.1), одна из которых существенно информативнее другой. Однако не смотря на это, обе по многим параметрам уступают полноте записи UniProt:

  1. Информация о названии белка менее полная, отсутствует короткое имя
  2. Отсутствует название кодирующего белок гена
  3. Отсутствует NCBI_TaxID организма
  4. Информация о публикациях куда менее полная: в записи RefSeq (ID:WP_003245660.1) она вообще отсутствует, в записи (ID:NP_389336.1) присутствует информация только о семи публикациях, из 20, описанных в UniProt.
  5. Комментарий в RefSeq практически не содержит полезной информации, в то время как в Uniprot он очень большой и полный, описывающий функции, структуру белка, его локализацию в клетке, принадлежность к семейству и многое другое.
  6. В RefSeq отсутствуют ссылки на другие базы данных, в то время как в Uniprot даны ссылки на 35 других баз данных
  7. В RefSeq не содержится информация о вторичной структуре белка
  8. В RefSeq отсутствуют данные о молекулярном весе белка[3]

Таким образом Uniprot дает куда более полное представление о рассматриваемом белке. Его использование куда более предпочтительно для получения общей информации об исследуемом белке.

ФОРМАТ ЗАПИСИ В UNIPROT НЕСТАНДАРТНЫХ ЯВЛЕНИЙ

  • НЕСТАНДАРТНЫЕ АМИНОКИСЛОТНЫЕ ОСТАТКИ:

    Когда в состав белковой последовательности входят нестандартные аминокислотные остатки, селеноцистеин (Sec) или пирролизин (Pyl), это отражается в разделе ‘Sequence’, если присутствие данных остатков в составе белка подтверждено эксперементально.

    В аминокислотной последовательности селеноцистеину в однобуквенном коде соответствует "U", а пирролизину "O". (Примеры: P24183 (селеноцистеин), Q8TTA5 (пирролизин))

    Также информация о присутствии в последовательности нестандартных аминокилотных остатков представлена в разделе FT (Feature Table), описывающем интересные участки в последовательности. В данном случае присутствие селеноцистеина или пирролизина будет помечено в этом разделе обозначением NON_STD во втором столбце[4] (см. Примеры):

    FT   NON_STD      52     52       Selenocysteine.
    FT   NON_STD     356    356       Pyrrolysine. {ECO:0000250}.

  • ПОСТТРАНСЛЯЦИОННАЯ МОДИФИКАЦИЯ:

    Информацию о посстрансляционной модификации аминокислотных иногда может содержаться в комметарии в разделе PTM (Примеры: P17590 , P56524)[5]:

    CC   -!- PTM: Phosphorylated by CaMK4 at Ser-246, Ser-467 and Ser-632.
    CC       Phosphorylation at other residues by CaMK2D is required for the
    CC       interaction with 14-3-3. Phosphorylation at Ser-350, within the
    CC       PxLPxI/L motif, impairs the binding of ANKRA2 but generates a
    CC       high-affinity docking site for 14-3-3.
    CC       {ECO:0000269|PubMed:10958686, ECO:0000269|PubMed:22649097}.
        

    Помимо этого более подробная информация может содержаться в разделе FT, с обозначением MOD_RES во второй колонке. При этом в разделе содержится информация о номере модифицированного остатка в последовательности и о типе его модификации[6]:

    FT   MOD_RES     467    467       Phosphoserine; by CaMK4 and SIK1.
    FT                                {ECO:0000269|PubMed:10958686}.  
       

    Информация о возможных типах посттрансляционной модификации описаны в Таблице 5. Аналогичным образом они отоброжаются в разделе FT, как это видно из приведенного примера.

Таблица 5. Виды посттрансляционной модификации[6].
Modification Description
ACETYLATION N-terminal of some residues and side chain of lysine
AMIDATION Generally at the C-terminal of a mature active peptide after oxidative cleavage of last glycine
BLOCKED Unidentified N- or C-terminal blocking group
FORMYLATION Generally of the N-terminal methionine
GAMMA-CARBOXYGLUTAMIC ACID Of glutamate
HYDROXYLATION Generally of asparagine, aspartate, proline or lysine
METHYLATION Generally of N-terminal phenylalanine, side chain of lysine, arginine, histidine, asparagine or glutamate, and C-terminal cysteine
PHOSPHORYLATION Of serine, threonine, tyrosine, aspartate, histidine or cysteine, and, more rarely, of arginine
PYRROLIDONE CARBOXYLIC ACID N-terminal glutamine which has formed an internal cyclic lactam. This is also called 'pyro-Glu'. Very rarely, pyro-Glu can be produced by modification of a N-terminal glutamate
SULFATION Of tyrosine, serine or threonine
  • ДИСУЛЬФИДНЫЕ СВЯЗИ

    Информация о диульфидных связях содержится в разделе PTM/Processing (Описывается положение остатков цистеина, принимающих участие в образовании связи. Если положение одного из остатков неизвестно, вместо позиции данной аминокислоты стоит знак вопроса. Пример: P10846), в текстовом формате документа может частично присутствовать в комментарии[7]:

       CC   -!- PTM: The disulfide bonds are essential for the inhibitor activity.
       

    О существовании и положении дисульфидной связи можно также узанть из поля FT, где дисульфидные связи обозначены как DISULFID. При этом указанные точки обозначают номера аминокислотных остатков, учавствующих в образовании связи. В случае если указанные номера совпадают - дисульфидная связь является межцепочной, а в поле с описанием указывается характер связывания цепей[6]:

       FT   DISULFID     23     84       {ECO:0000305}.
       FT   DISULFID     29     29       Interchain (with C-8 in small chain).
       FT   DISULFID     28      ?       {ECO:0000250}. 
       

  • АЛЬТЕРНАТИВНЫЙ СПЛАЙСИНГ

    Информация о продуктах альтернативного сплайсинга (различных изоформах белка, полученных от одного гена путем сплайсинга) содержится в разделе "Sequence", где представлены все изветсные изоформы - их индификаторы и отличия от основной последовательности (Пример:P04150)[8].

  • В текстовом формате данная информация содержится в разделе FT, и обозанчена как VAR_SEQ. VAR_SEQ включает в себя описание последовательностей, полученных путем альтернативного сплайсинга, альтернативного использования промотора, альтернативного инициирования и рибосомного сдвига рамки. При этом данное описание иммет следающий вид[6]:

    FT   VAR_SEQ     653    672       VATSNPGKCLSFTNSTFTFT -> ALVSHHCPVEAVRAVHP
    FT                                TRL (in isoform 2).
    FT                                /FTId=VSP_003786.
    FT   VAR_SEQ     673    913       Missing (in isoform 2).
    FT                                /FTId=VSP_003787.
       

  • ВАРИАНТЫ ПОСЛЕДОВАТЕЛЬНОСТИ

    Информация о существовании различных вариантов последовательностей содержится в разделе "Sequence" (Пример: P15516).
    В текстовом формате информация помещена в раздел FT, где обозначена как VARIANT - авторы сообщают о существовании данного варианта последовательности. В этом разделе описано чем отличается данный вариант от исходного и, вероятно, где был встречен[6]:

    FT   VARIANT     214    214       V -> I.
    FT                                /FTId=VAR_009122.
    FT   VARIANT     237    237       I -> L (in strain: B293, Z3524, Z3910,
    FT                                Z3915 and Z3918).
    FT   VARIANT      21     22       Missing (in 35% of the chains).
    FT                                /FTId=VAR_006353.
    FT   VARIANT     265    344       Missing (in allele D4.2).
    FT                                /FTId=VAR_003465.
    FT   VARIANT     156    156       I -> V (in RNA edited version).
    FT                                /FTId=VAR_010166.
        

ИСТОЧНИКИ

  1. http://www.uniprot.org/uniprot/Q45493
  2. https://www.ncbi.nlm.nih.gov/taxonomy
  3. https://www.ncbi.nlm.nih.gov/refseq/
  4. http://www.uniprot.org/help/non_std
  5. http://www.uniprot.org/help/post-translational_modification
  6. http://www.uniprot.org/docs/userman.htm#FT_line
  7. http://www.uniprot.org/help/disulfid
  8. http://www.uniprot.org/help/alternative_products

© Анна Камышева 2016