БАНК UNIPROT |
На данной страничке представлена общая информация о белке Рибонуклеазе J (Uniprot ID - RNJ1_BACSU), полученная из базы данных
Uniprot. Основные данные предствлены в Таблице 1. |
Таблица 1. Основыне данные
Uniprot ID | RNJ1_BACSU |
Uniprot AC | Q45493 |
Refseq ID | NP_389336.1WP_003245660.1 |
PDB ID | 3ZQ4 |
Длина белка | 555 AA |
Молекулярная масса в дальтонах | 61517 |
Рекомендуемое название | Full=Ribonuclease J1 {ECO:0000255|HAMAP-Rule:MF_01491}
Short=RNase J1 {ECO:0000255|HAMAP-Rule:MF_01491}
EC=3.1.-.- {ECO:0000255|HAMAP-Rule:MF_01491} |
|
Рибонуклеаза J встречается у сенной палочки (Bacillus subtilis, таксономическое положение данной бактерии
показано в Таблице 2) и относится к классу гидролаз,
ферментов катализирующих гидролиз ковалентной связи. Общий вид реакции, катализируемой гидролазой выглядит следующим образом:
A–B + H2O > A–OH + B–H
Рибонуклеаза J обаладает эндонуклеазной и 5'-3' экзонуклеазной активностью, играет роль в стабилизации и разрушении р-РНК и м-РНК. В клетке белок локализован в
цитоплазме. Принадлежит к суперсемейству металло-бета-лактамаз.
Действующая версия записи о данном белка датирована 15 февраля 2017 года и является 113 по счету. Первая версия представляла из себя
белковую последовательность от 1 ноября 1996 года (подробнее об изменениях вносимых в запись см. в разделе History).
Белок иммет статус Reviewed, его существование подтверждено эксперементальными данными[1]. |
Таблица 2. Таксономическое положение Bacillus subtilis[2].
SUPRERKINGDOM | Bacteria |
PHYLUM | Firmicutes |
CLASS | Bacilli |
ORDER | Bacillales |
FAMILY | Bacillaceae |
GENUS | Bacillus |
SPECIES GROUP | Bacillus subtilis group |
SPECIES | Bacillus subtilis |
SUBSPECIES | Bacillus subtilis subsp. subtilis |
| Bacillus subtilis subsp. subtilis str. 168 |
|
Длина последовательности данного белка составляет 555 аминокислотных остатков (последовательность белка в FASTA формате представлена в
Таблице 3.) Белок состоит из 4 цепей, в его состав входят лиганды: по одному иону кальция (Ca2+) и двум ионам цинка (Zn2+)
на субъединицу. Пока не совсем ясно, образует ли этот белок гомодимер или входит в состав более крупного комплекса. Более ранние исследования
противоречат более поздим. Существует также вероятность взаимодействия Рибонуклеаза J1 с J2 с образованием гетеротетрамера, функционирующего как
комплекс РНК-дегидросомы. Однако возможность существования такого комплекса опровергается в одном из исследовании - не находится никаких доказательств его
существования (PubMed:20025672)[1]. |
Таблица 3. Последовательность белка в FASTA формате[1].
>sp|Q45493|RNJ1_BACSU Ribonuclease J1
MKFVKNDQTAVFALGGLGEIGKNTYAVQFQDEIVLIDAGIKFPEDELLGIDYVIPDYTYL
VKNEDKIKGLFITHGHEDHIGGIPYLLRQVNIPVYGGKLAIGLLRNKLEEHGLLRQTKLN
IIGEDDIVKFRKTAVSFFRTTHSIPDSYGIVVKTPPGNIVHTGDFKFDFTPVGEPANLTK
MAEIGKEGVLCLLSDSTNSENPEFTMSERRVGESIHDIFRKVDGRIIFATFASNIHRLQQ
VIEAAVQNGRKVAVFGRSMESAIEIGQTLGYINCPKNTFIEHNEINRMPANKVTILCTGS
QGEPMAALSRIANGTHRQISINPGDTVVFSSSPIPGNTISVSRTINQLYRAGAEVIHGPL
NDIHTSGHGGQEEQKLMLRLIKPKFFMPIHGEYRMQKMHVKLATDCGIPEENCFIMDNGE
VLALKGDEASVAGKIPSGSVYIDGSGIGDIGNIVLRDRRILSEEGLVIVVVSIDMDDFKI
SAGPDLISRGFVYMRESGDLINDAQELISNHLQKVMERKTTQWSEIKNEITDTLAPFLYE
KTKRRPMILPIIMEV
|
|
РАБОТА С КЛАСТЕРАМИ БЕЛКА |
Кластер Uniref100: UniRef100 сочетает в себе идентичные последовательности и суб-фрагментов с 11 или более остатков из любого организма в одну запись UniRef.
Белок Ribonuclease J1 входит в кластер Ribonuclease J1(100%) (Cluster ID: UniRef100_Q45493). Помимо рассматриваемого в данной работе белка, в этот кластер
входят еще 9 последовательностей (общее число последовательностей в кластере - 10). Из 10 последовательностей лишь одна (рассатриваемая мной) входит в категорию
Reviewed. Найденные белки встречаются у различных штаммов бактерии сенной палочки (Bacillus subtilis ) и пневмококка (Streptococcus pneumoniae).
При этом длина последовательности кластера колеблется от 350 до 558, однако наиболее часто встречаемое число аминокислотных остатков в составе последовательности - 555 (как
и у рассматриваемого белка). Любопытной особенностью кластера явлется столь большой разброс в длине последовательностей, при этом последоваетльность с 350
аминокислотными остатками встречается у пневмококка (Uniprot ID: A0A0T8PS06_STREE). Этот белок носит название Metallo-beta-lactamase superfamily protein 1 и
кодируется тем же геном, что и Ribonuclease J1 (rnjA). Данный белок содержит фрагмент той же самой аминокислотной последовательности, что и Ribonuclease J1,
начиная с 206 аминокислотного остатка (см. Таблица 3).
Кластер Uniref90:
UniRef90 составляется путем объединения последовательностей, которые по меньшей мере на 90% идентичны последовательностям UniRef100, а также последовательностей, совпадающих с самой длинной последовательностью UniRef100 на 80%.
Ribonuclease J1 входит в кластер Ribonuclease J1(90%) (Cluster ID: UniRef90_Q45493). В состав кластера входит 104 последовательности, из них к категории
Reviewed относится лишь рассматриваемый белок (RNJ1_BACSU). Длина последовательности варьирует от 161 до 579 аминокислотных остатков ( в кластер входят два небольших
фрагмента последовательности: c длиной 161 (UniProt ID: A0A0D7X9Z9_BACAM) и 195 (UniProt ID: A0A0D7XCJ8_BACAM), а также 438 (с пометкой partial - Uniprot AC:UPI00036C0019)).
При этом наиболее распространенная длина последовательности - 555.
Помимо белков Ribonuclease J в класере присутствует также белок Metallo-beta-lactamase superfamily protein 1, описанный выше, и белок
YkqC из организма Bacillus atrophaeus UCMB-5137, информации о котором содержится мало.
Кластер Uniref50:
UniRef50 составляется путем объединения последовательностей, которые по меньшей мере на 50% идентичность последовательности UniRef90, а также последовательностей, совпадающих
на 80% с самой длинной последовательностью в кластере.
Белок Ribonuclease J1 входит в кластер Ribonuclease J1(50%) (Cluster ID: UniRef50_Q45493). В состав кластера входит 941 последовательность, из них к категории
Reviewed относится лишь рассматриваемый белок (RNJ1_BACSU), а 277 - UniParc. Наибольшая длина последовательности, встречающаяся в этом кластере домтигает 654
аминокислотных остатков[1].
|
Таблица 4. Кластеры белка UniRef.
Назание кластера (+ID) | Число последовательностей в кластере |
UniRef100UniRef100_Q45493 | 10 |
UniRef90UniRef90_Q45493 | 104 |
UniRef50UniRef50_Q45493 | 941 |
|
ПОИСК В UNIPROT |
Поиск по рекомендованному полному названию (Ribonuclease J1):
Текст запроса: name:"ribonuclease j1"
Найден 171 белок, из них 15 из раздела Reviewed.
Поиск по рекомендованному краткому названию (RNase J1):
Текст запроса: name:"rnase j1"
Найдено 40 белков, из них 15 из раздела Reviewed.
Поиск по рекомендованному полному названию (Ribonuclease J1) среди белков организма (bacillus subtilis strain 168):
Текст запроса: name:"ribonuclease j1" AND organism:"Bacillus subtilis (strain 168)"
Найден один, рассматриваемый в данной работе белок, относящийся к категории Reviewed.
Поиск по рекомендованному краткому названию (RNase J1) среди белков своего организма (bacillus subtilis strain 168):
Текст запроса: name:"rnase j1" organism:"Bacillus subtilis strain 168"
Найден один, рассматриваемый в данной работе белок, относящийся к категории Reviewed.
Поиск по рекомендованному полному названию (Ribonuclease J1) среди белков семейства (Bacillaceae):
Текст запроса: name:"ribonuclease j1" taxonomy:"Bacillaceae [186817]"
Найдено 8 белков из которых 1 относится к категории Reviewed (UniPort ID: RNJ1_BACSU). Длина последовательности варьирует от 89 до 573 аминокислотных остатков. При этом медиана
длины данных белков составляет 327, 5.
Поиск по рекомендованному краткому названию (RNase J1) среди белков семейства (Bacillaceae):
Текст запроса: name:"rnase j1" taxonomy:"Bacillaceae [186817]"
Найдено 12 белков из которых 1 относится к категории Reviewed (UniPort ID: RNJ1_BACSU). Длина последовательностей варьирует в пределах 555-556 аминокислотных остатков.
Поиск по рекомендованному полному названию (Ribonuclease J1) среди белков отдела (Firmicutes):
Текст запроса: name:"ribonuclease j1" taxonomy:"Firmicutes [1239]"
Найдено 76 белков из которых 15 относится к категории Reviewed. Длина последовательности варьирует от 47 до 620 аминокислотных остатков.
Поиск по рекомендованному краткому названию (RNase J1) среди белков отдела (Firmicutes):
Текст запроса: name:"rnase j1" taxonomy:"Firmicutes [1239]"
Найдено 36 белков из которых 15 относится к категории Reviewed. Длина последовательностей варьирует в пределах 551-620 аминокислотных остатков.
В соответсвии с этими сеансами поиска можно сделать несколько следующих выводов:
- Наиболее часто в базе данных UniProt используются полные названия белков, однако краткие названия также широко распространены.
- Наиболее изучены белки Ribonuclease J1 из отдела Firmicutes, но не из семейства Bacillaceae.
- В отделе наблюдается широкое разнообразие длинн последовательностей данного белка.
|
ОБЩИЙ ПОИСК
Поиск названию Myosin:
Текст запроса: name:myosin
Найдено 23 037 белков, из них 464 из раздела Reviewed. Белки встречаются у совершенно различных организмов, и отличаются друг от друга длиной последовательности
на несколько тысяч аминокилотных остатков. Наиболее популярный организм - человек (Homo sapiens (Human)) - 448 последовательностей.
Поиск названию Myosin среди животных (Metazoa):
Текст запроса: name:myosin taxonomy:"Metazoa [33208]"
Найдено 16721 белков, из них 339 из раздела Reviewed. Наиболее популярный организм - человек (Homo sapiens (Human))
Поиск названию Myosin среди грибов (Fungi):
Текст запроса: name:myosin taxonomy:fungi
Найдено 1800 белков, из них 57 из раздела Reviewed. Наиболее популярный организм - Saccharomyces cerevisiae
Поиск названию Trypsin:
Текст запроса: name:trypsin
Найдено 14034 белков, из них 310 из раздела Reviewed.
Поиск ингибиторов трипсина:
Текст запроса: name:trypsin name:inhibitor
Найдено 2984 белков, из них 209 из раздела Reviewed.
|
UNIPROT HISTORY
UniProt предоставляет возможность изучения истории изменения записи о данном белке. Рассматривая историю можно узнать в каком направлении шло изучение белка,
насколько исследователи заинтересованы в данном белке, какими темпами шло его изучение, что предстоит сделать в дальнейшем.
Текущая запись датирована 15 февраля 2017 года и представляет из себя 113 версию записи. Первая версия представляла из себя версию последовательности
и была добавлена в базу данных первого ноября 1996 года.
Описание истории изменения записи: - Первая запись, добавленная 1 ноября 1996 года была сгенерированна при помощи автоматического банка данных
TrEMBL. Данная запись не содержала большое количество информации: Uniprot ID (Q45493 - отличается от текущего), длина последовательности, молекулярная масса, сама последовательность,
статус записи (PRELIMINARY - предварительная), дата генерации TrEMBL, кодирующий ген ( позже был переименован из YKQC в rnjA), организм, содержавший данный белок
(примечательно как изменилась за десять лет классификация с PROKARYOTA; FIRMICUTES; ENDOSPORE-FORMING RODS AND COCCI; BACILLACEAE. на Bacteria; Firmicutes; Bacilli; Bacillales; Bacillaceae; Bacillus.),
авторы работы и публикация. Комментарии не содержал существенной информации. Присутствовала единственная ссылка на базу данных EMBL.
Любопытно также что первоначально белок был добален в базу данных EMBL/GENBANK/DDBJ DATA BANKS в июне 1996. Первоначально также белок считался гипотетическим с гипотетической
молярной массой, имя ему еще не было присвоено.
Насколько можно судить визуально, за 10 лет также несколько поменялся формат самой записи в текстовом формате.
Ровно через год (1 ноября 1997) данная запись была модифицирована и дополнена, переведена в категорию Reviewed, рецензирована Swiss-Prot. При этом
белку был присвоен новый Uniprot ID (YKQC_BACSU), запись была переведена в категорию STANDARD. Была убарана информация о публикациии и дополнен комментарий
(принадлежность белка к семейству UPF0036). Были добавлены две ссылки на базы данных SUBTILIST и PROSITE.
Впоследствии запись многократно подвегалась изменениям (текущая версия является 113). Последними внесенными изменениями были изменения в ссылках на другие
базы данных, в частности изменены ссылки на базу данных GO и убрана ссылка на базу данных PANTHER.
Сравнивая последнюю версию с первой, можно заметить, что все строки из первоначальной записи (всего их было чуть больше 20 без последовательности),
исключая комментарий и поледовательность так или иначе были изменены. Были добавлены:
- Различные названия белка
- Полное новое название кодирующего гена
- Современная классификация организма, содержащего белок
- Информация о многочисленных публикациях
- В комментарий была добавлена информация о функциях белка, его компонентах и структуре, локализация в клетке, принадлежность к семейству
- Ссылки на многочиленные базы данных с ID белка в этих базах
- Информация о вторичной структуре и т.д.
Интересно также, что не смотря на многократные изменения записи, сама последовательность в FASTA-формате не изменялась ни разу с момента
ее добавления в 1996[1].
|
REFSEQ и UBNIPROT
Изучаемому в данной работе белку соответсвует два записи в RefSeq (Refseq ID: NP_389336.1; WP_003245660.1), одна из которых существенно информативнее другой.
Однако не смотря на это, обе по многим параметрам уступают полноте записи UniProt:
- Информация о названии белка менее полная, отсутствует короткое имя
- Отсутствует название кодирующего белок гена
- Отсутствует NCBI_TaxID организма
- Информация о публикациях куда менее полная: в записи RefSeq (ID:WP_003245660.1) она вообще отсутствует, в записи (ID:NP_389336.1) присутствует
информация только о семи публикациях, из 20, описанных в UniProt.
- Комментарий в RefSeq практически не содержит полезной информации, в то время как в Uniprot он очень большой и полный, описывающий функции, структуру белка,
его локализацию в клетке, принадлежность к семейству и многое другое.
- В RefSeq отсутствуют ссылки на другие базы данных, в то время как в Uniprot даны ссылки на 35 других баз данных
- В RefSeq не содержится информация о вторичной структуре белка
- В RefSeq отсутствуют данные о молекулярном весе белка[3]
Таким образом Uniprot дает куда более полное представление о рассматриваемом белке. Его использование куда более предпочтительно для получения
общей информации об исследуемом белке. |
ФОРМАТ ЗАПИСИ В UNIPROT НЕСТАНДАРТНЫХ ЯВЛЕНИЙ
НЕСТАНДАРТНЫЕ АМИНОКИСЛОТНЫЕ ОСТАТКИ: Когда в состав белковой последовательности входят нестандартные аминокислотные остатки, селеноцистеин (Sec)
или пирролизин (Pyl), это отражается в разделе ‘Sequence’, если присутствие данных остатков в составе белка подтверждено эксперементально.
В аминокислотной последовательности селеноцистеину в однобуквенном коде соответствует "U", а пирролизину "O". (Примеры: P24183 (селеноцистеин), Q8TTA5 (пирролизин))
Также информация о присутствии в последовательности нестандартных аминокилотных остатков представлена в разделе FT (Feature Table), описывающем
интересные участки в последовательности. В данном случае присутствие селеноцистеина или пирролизина будет помечено в этом разделе обозначением NON_STD
во втором столбце[4] (см. Примеры):
FT NON_STD 52 52 Selenocysteine.
FT NON_STD 356 356 Pyrrolysine. {ECO:0000250}.
- ПОСТТРАНСЛЯЦИОННАЯ МОДИФИКАЦИЯ:
Информацию о посстрансляционной модификации аминокислотных иногда может содержаться в комметарии в разделе PTM (Примеры: P17590 , P56524)[5]:
CC -!- PTM: Phosphorylated by CaMK4 at Ser-246, Ser-467 and Ser-632.
CC Phosphorylation at other residues by CaMK2D is required for the
CC interaction with 14-3-3. Phosphorylation at Ser-350, within the
CC PxLPxI/L motif, impairs the binding of ANKRA2 but generates a
CC high-affinity docking site for 14-3-3.
CC {ECO:0000269|PubMed:10958686, ECO:0000269|PubMed:22649097}.
Помимо этого более подробная информация может содержаться в разделе FT, с обозначением MOD_RES во второй колонке. При этом в разделе содержится
информация о номере модифицированного остатка в последовательности и о типе его модификации[6]:
FT MOD_RES 467 467 Phosphoserine; by CaMK4 and SIK1.
FT {ECO:0000269|PubMed:10958686}.
Информация о возможных типах посттрансляционной модификации описаны в Таблице 5. Аналогичным образом они отоброжаются в разделе FT, как
это видно из приведенного примера.
Таблица 5. Виды посттрансляционной модификации[6].
Modification |
Description |
ACETYLATION |
N-terminal of some residues and side chain of lysine |
AMIDATION |
Generally at the C-terminal of a mature active peptide after oxidative cleavage of last glycine |
BLOCKED |
Unidentified N- or C-terminal blocking group |
FORMYLATION |
Generally of the N-terminal methionine |
GAMMA-CARBOXYGLUTAMIC ACID |
Of glutamate |
HYDROXYLATION |
Generally of asparagine, aspartate, proline or lysine |
METHYLATION |
Generally of N-terminal phenylalanine, side chain of lysine, arginine, histidine, asparagine or glutamate, and C-terminal cysteine |
PHOSPHORYLATION |
Of serine, threonine, tyrosine, aspartate, histidine or cysteine, and, more rarely, of arginine |
PYRROLIDONE CARBOXYLIC ACID |
N-terminal glutamine which has formed an internal cyclic lactam. This is also called 'pyro-Glu'. Very rarely, pyro-Glu can be produced by modification of a N-terminal glutamate |
SULFATION |
Of tyrosine, serine or threonine |
ДИСУЛЬФИДНЫЕ СВЯЗИ
Информация о диульфидных связях содержится в разделе PTM/Processing (Описывается положение остатков цистеина, принимающих участие в
образовании связи. Если положение одного из остатков неизвестно, вместо позиции данной аминокислоты стоит знак вопроса. Пример: P10846),
в текстовом формате документа может частично присутствовать в комментарии[7]:
CC -!- PTM: The disulfide bonds are essential for the inhibitor activity.
О существовании и положении дисульфидной связи можно также узанть из поля FT, где дисульфидные связи обозначены как DISULFID. При этом указанные
точки обозначают номера аминокислотных остатков, учавствующих в образовании связи. В случае если указанные номера совпадают - дисульфидная связь
является межцепочной, а в поле с описанием указывается характер связывания цепей[6]:
FT DISULFID 23 84 {ECO:0000305}.
FT DISULFID 29 29 Interchain (with C-8 in small chain).
FT DISULFID 28 ? {ECO:0000250}.
АЛЬТЕРНАТИВНЫЙ СПЛАЙСИНГ
Информация о продуктах альтернативного сплайсинга (различных изоформах белка, полученных от одного гена путем сплайсинга) содержится в разделе
"Sequence", где представлены все изветсные изоформы - их индификаторы и отличия от основной последовательности (Пример:P04150)[8].
В текстовом формате данная информация содержится в разделе FT, и обозанчена как VAR_SEQ. VAR_SEQ включает в себя описание последовательностей, полученных
путем альтернативного сплайсинга, альтернативного использования промотора, альтернативного инициирования и рибосомного сдвига рамки. При этом данное описание
иммет следающий вид[6]:
FT VAR_SEQ 653 672 VATSNPGKCLSFTNSTFTFT -> ALVSHHCPVEAVRAVHP
FT TRL (in isoform 2).
FT /FTId=VSP_003786.
FT VAR_SEQ 673 913 Missing (in isoform 2).
FT /FTId=VSP_003787.
ВАРИАНТЫ ПОСЛЕДОВАТЕЛЬНОСТИ
Информация о существовании различных вариантов последовательностей содержится в разделе "Sequence" (Пример: P15516).
В текстовом формате информация помещена в раздел FT, где обозначена как VARIANT - авторы сообщают о существовании данного варианта последовательности.
В этом разделе описано чем отличается данный вариант от исходного и, вероятно, где был встречен[6]:
FT VARIANT 214 214 V -> I.
FT /FTId=VAR_009122.
FT VARIANT 237 237 I -> L (in strain: B293, Z3524, Z3910,
FT Z3915 and Z3918).
FT VARIANT 21 22 Missing (in 35% of the chains).
FT /FTId=VAR_006353.
FT VARIANT 265 344 Missing (in allele D4.2).
FT /FTId=VAR_003465.
FT VARIANT 156 156 I -> V (in RNA edited version).
FT /FTId=VAR_010166.
|
ИСТОЧНИКИ
- http://www.uniprot.org/uniprot/Q45493
- https://www.ncbi.nlm.nih.gov/taxonomy
- https://www.ncbi.nlm.nih.gov/refseq/
- http://www.uniprot.org/help/non_std
- http://www.uniprot.org/help/post-translational_modification
- http://www.uniprot.org/docs/userman.htm#FT_line
- http://www.uniprot.org/help/disulfid
- http://www.uniprot.org/help/alternative_products
|