UniProt ID | C6XF58_LIBAP |
UniProt AC | C6XF58 |
RefSeq ID | WP_015452621.1 |
PDB ID | 4CL2; 4UDN; 4UDO (комплекс с марганцем); 5AFS (комплекс с цинком) |
Длина (в а. о.) | 294 |
Молекулярная масса (Да) | 33 071 |
Название, рекомендуемое UniProt | — |
Название, одобряемое UniProt | Periplasmic solute binding protein |
Интересно, что раньше рассматриваемый белок имел другой RefSeq ID. Изначально он писался как YP_003064950.1, однако сейчас его идентефикатор — WP_015452621.1. Это сделано в целях борьбы с избыточностью последовательностей в базе данных: так, например, белок с точно такой же аминокислотной последовательностью описан в контексте нескольких сборок (NZ_CP010804.1, NZ_LIIM01000002.1, NZ_AP014595.1, NZ_JWHA01000001.1, NC_020549.1, NC_012985.3). Таким образом изначально аннотированные как разные одинаковые белки называют одинаково. Избыточность маркировки последовательностей плоха в первую очередь тем, что мешает сопоставлять многообразие белков различных организмов.
Кроме прямой борьбы с лишней избыточностью со стороны создателей и модераторов баз данных, создаются инструменты для поиска похожих последовательностей пользователям. В UniProt есть возможность группировать последовательности в кластеры по их похожести.
Совпадение на 50% наблюдается с 7 белками, они находятся в кластере UniRef50_E4UE39 (выделен в результате сравнения с белком, который имеет идентефикатор E4UE39 в UniProtKB). Все эти семь белков — тоже ABC-транспортеры бактерий рода Candidatus Liberibacter (4 разных вида). Совпадающие на 90% белки помещены в кластер UniRef90_A0A0P6RFB0, основанный на сравнении с белком с идентификатором A0A0P6RFB0. Это ровно тот же самый белок, что и исследуемый (RefSeq: WP_015452621.1), однако отличается от него тем, что был найден в другом штамме (YCPsy, C6XF58 найден в psy). Что логично, ровно ту же картину видим и в кластере с полными совпадениями (UniRef100_A0A0P6RFB0).
1 | periplasmic solute binding protein | 33 939 | 503 |
---|---|---|---|
name:"periplasmic solute binding protein" | 3 185 | 0 | |
2 | periplasmic solute binding protein taxonomy:rhizobiaceae | 1 413 | 21 |
name:"periplasmic solute binding protein" taxonomy:rhizobiaceae | 451 | 0 | |
3 | periplasmic solute binding protein taxonomy:proteobacteria | 27 943 | 450 |
name:"periplasmic solute binding protein" taxonomy:proteobacteria | 1 921 | 0 | |
4 | name:"histone" | 87 840 | 2 045 |
name:"histone" taxonomy:phaeophyceae | 39 | 0 | |
name:"histone" taxonomy:ciliophora | 447 | 61 | |
5 | name:"histone" | 87 840 | 2 045 |
Через ExPASy: ENZYME ищем все ферменты со словом «histone». | |||
name:"histone deacetylase" OR name:"histone acetyltransferase" OR name:"histone-lysine N-methyltransferase" OR name:"JmjC domain-containing histone demethylase 1A" OR name:"histone-lysine name:"H3-K36" demethylase" OR name:"histone demethylase" OR name:"[histone H3]-lysine-36 demethylase" | 1 598 | 160 |
В UniProt одинаковые по последовательности белки могут иметь два разных действующих идентефикатора в зависимости от того, в каком организме белок описан. В RefSeq этого нет, однако они восполняют это новой базой UniRef, которая справляется с теми же задачами, которые стояли перед RefSeq.
База UniProt содержит большее, чем RefSeq, число ссылок на другие источники информации: PDB, KEGG, OrthoDB и проч. Также более разнообразны инструменты работы, интегрированные в интерфейс.
Рассмотрим историю изменений состояния информации о белке на примере транскрипционного фактора и глобального регулятора хроматина белка SATB1. Начиная с октября 1993 года и заканчивая сегодняшним днём запись об этом белке была изменена суммарно 158 раз. С 1993 года поменялись стандарты оформления информации в каталоге; к списку из четырёх учёных добавились ещё сотни фамилий; стало известно большое множество изоформ белка; была изучена его роль в жизни организма. Интересно, что после первой публикации в 1993 году сама аминокислотная последовательность белка не была исправлена.
Серьёзной была поправка, совершённая 3 ноября 2009 года. Она была сделана после того, как были завершены полное секвенирование и анализ 21 243 человеческих кДНК. Стало известно об альтернативном сплайсинге, многие учёные предположили тонкости механизмов работы этого белка.
Остаток селеноцистеина | «Selenocysteine» в ключевых словах; В сиквенсе нестандартное однобуквенное обозначение — «U» |
P24183 |
Остаток пирролизина | «pyrrolysine» в ключевых словах; В сиквенсе нестандартное однобуквенное обозначение — «O» |
Q8TTA5 |
Посттрансляционная модицикация | Специальное поле «PTM:» | P17590 |
Альтернативный сплайсинг | Указан в качестве значения «Event=» | Q01826 |