База данных UniProt.
Uniprot ID |
A0A0U3LMY0_STRGL |
Uniprot AC |
A0A0U3LMY0 |
Refseq ID |
WP_010060695.1; NZ_CP013738.1 |
PDB ID |
- |
Длина |
171 AA |
Молекулярная масса |
17880 MW |
SubName (Full) |
Chitin-binding protein {ECO:0000313|EMBL:ALU92050.1} |
Описание данных таблицы.
Я нашла запись Uniprot с помощью сервиса "Retrieve/ID mapping" по идентификатору CDS - ALU92050.1.
Данные Uniprot говорят о том, что исследованный белок называется Chitin-binding protein, он свойственен организму
Streptomices globisporus, штамм С-1027.
Впервые информация об этом белкке поступила в UniProtKB 16 марта 2016 (DT). Здесь представлена полная
последовательность белка, а не отдельный фрагмент. Интересная особенность -
у данного белка нет рекомендованного названия, поэтому в таблице в соответствующей графе я указала SubName; также в
поле DR нет ссылки на PDB файл, поэтому в таблице прочерк.
Из локальных особенностей последовательности (FT) можно назвать: 1) Белок предстьавлен одной цепью из 171
аминокислотного остатка.
2) Присутствует сигнальная часть с 1 по 30 аминокислотный остаток, поэтому фактически белковая цепь состоит из 141
остатка. Возможно, эта последовательность в начале нужна для выхода белкового продукта из клетки или для связывания
с соответствующим рецептором.
3) В цепи белка выделяется домен с 31 по 168 остаток.
Что касается достоверности рассматриваемой мною последовательности, в поле PE указан код 4, что говорит лишь
возможном существовании белка - полученные данные еще никак не были подтверждены.
Описание кластеров Uniref.
- Uniref100 объединяет идентичные последовательности или фрагменты из 11 и более остатков, являющиеся
подпоследовательностями.
ID кластера моего белка - UniRef100_A0A0D6VGS2. Кроме моег обелка в нем также находится Chitin binding protein
организма Streptomyces griseus. Эта последовательность является точной копией последовательности моего белка.
Её ID - A0A0D6VGS2_STRGR, ссылка на PDB файл тоже отсутствует, достоверность существования белка аналогично пока не
была подтверждена.
- Uniref90 сотставлен из псоледовательностей, идентичных по крайней мере на 90% или перекрывающихся на 80% и
более.
ID кластера - UniRef90_A0A1B9ETE9, в нем содержится 42 последовательности, все они имеют длину 171 остаток и
принадлежат организмам из рода Streptomices. Среди этих белков есть 16, для которых известна только
последовательность аминокислот, и информация о нихзаписана тоько в файлы формата FASTA.
- UniRef50 составлен из последовательностей идентичных на 50%.
ID кластера - UniRef50_A0A1B9ETE9, в нем содержится 269 последовательностей, длина варьирует от 148 до 181 остатка.
Белки этого кластера встречаются у разных групп бактерий.
Результаты поиска в UniProt.
-
- Поиск: name:"chitin binding protein".(искала по SubName)
- Результаты: найдено 2 985, из них 5 рецензировано Swiss-Prot.
-
- Поиск: name:"chitin binding protein" AND organism:"Streptomyces globisporus C-1027
[1172567]"
- Резудьтаты: найдено 3, из них 0 рецензировано Swiss-Prot.
-
- Поиск: name:"chitin binding protein" taxonomy:"Streptomycetaceae [2062]"
- Резудьтаты: найдено 807, из них 0 рецензировано Swiss-Prot.
-
- Поиск: name:"chitin binding protein" taxonomy:"Actinobacteria [201174]"
- Резудьтаты: найдено 1 073, из них 0 рецензировано Swiss-Prot.
Из результатов четырёх сеансов поиска можно сделать вывод, что белки с таким названием плохо изученны и
особенно свойствены бактериям отдела Actinobacteria.
-
- Поиск: name:homeobox
- Резудьтаты: найдено 26 519, из них 1 393 рецензировано Swiss-Prot.
- Поиск: name:homeobox taxonomy:"Metazoa [33208]"
- Резудьтаты: найдено 20 243, из них 1 137 рецензировано Swiss-Prot, самый
популярный организм для исследований - человек.
- Поиск: name:homeobox taxonomy:"Viridiplantae [33090]"
- Резудьтаты: найдено 4 846, из них 224 рецензировано Swiss-Prot, самый популярный
организм для исследований - Arabidopsis thaliana.
-
- Широкий поиск: name:trypsin
- Найдено 12 931, из них 310 рецензировано Swiss-Prot.
- Поиск: name:trypsin name:inhibitor
- Найдено 2 753, из них 209 рецензировано Swiss-Prot.
Записи RefSeq.
Моему белку соответствуют одна запись RefSeq (WP_010060695), вторая запись соответствует полному
геному организма, белок которого изучается (NZ_CP013738).
Итак, запись RefSeq для белка содержит меньше информации, чем база Uniprot. А именно - 1) В RefSeq указан только
род организмов, к которому принадлежит белок. В Uniprot записан точный вид, в моем случае даже штамм, и описаны его
примчательные свойства.
2) В RefSeq не приведена молекулярная масса белка. 3) В RefSeq не написано, что первые 30 остатков цепи являются
сигнальной последовательностью.4) В RefSeq не приведена инормация о публикациях исследований о данном белке.
5) И в RefSeq нет ссылок на другие базы данных.
История записи.
Запись о моем белке была добавлена в базу 16 марта 2016 года, с тех пор появилось 5 версий записи, но все они
соответствуют одной версии секвенирования последовательности. По сравнению с самым первым вариантом
в более поздние была добавлена информация о локальных особенностях последовательности (FT) и ссылки на другие базы
данных (DR).
Обозначения.
- Нестандартные аминокислоты NON_STD:
- Пирролизин - Pyl - O.
- Селеноцистеин - Sec - U.
- Аспарагиновая кислота ИЛИ аспарагин - Asx - B.
- Глутаминовая кислота ИЛИ глутамин - Glx - Z.
- Любая аминокислота - Xaa - X.
- Посттрансляционные модификации MOD_RES(приведу некоторые):
- HYDROXYLATION
- PHOSPHORYLATION
- Дисульфидные связи DISULFID.
- Варианты последовательности, полученные в результате альтернативного сплайсинга, альтернативного использования
промотера, альтернативной инициации или сдвига рамки считывания на рибосоме - VAR_SEQ.
Информация взята с сайта Uniprot: help.
|