Введение в базы данных: UnipProt и RefSeq Protein

1

Таблица 1. Кратакая информация о белке с UniProtKB AC C6XF58
Параметр
Значение
UniProt ID C6XF58_LIBAP
UniProt AC C6XF58
RefSeq ID WP_015452621.1
PDB ID 4CL2;
4UDN;
4UDO (комплекс с марганцем);
5AFS (комплекс с цинком)
Длина (в а. о.) 294
Молекулярная масса (Да) 33 071
Название, рекомендуемое UniProt
Название, одобряемое UniProt Periplasmic solute binding protein

Интересно, что раньше рассматриваемый белок имел другой RefSeq ID. Изначально он писался как YP_003064950.1, однако сейчас его идентефикатор — WP_015452621.1. Это сделано в целях борьбы с избыточностью последовательностей в базе данных: так, например, белок с точно такой же аминокислотной последовательностью описан в контексте нескольких сборок (NZ_CP010804.1, NZ_LIIM01000002.1, NZ_AP014595.1, NZ_JWHA01000001.1, NC_020549.1, NC_012985.3). Таким образом изначально аннотированные как разные одинаковые белки называют одинаково. Избыточность маркировки последовательностей плоха в первую очередь тем, что мешает сопоставлять многообразие белков различных организмов.

2

Кроме прямой борьбы с лишней избыточностью со стороны создателей и модераторов баз данных, создаются инструменты для поиска похожих последовательностей пользователям. В UniProt есть возможность группировать последовательности в кластеры по их похожести.

Совпадение на 50% наблюдается с 7 белками, они находятся в кластере UniRef50_E4UE39 (выделен в результате сравнения с белком, который имеет идентефикатор E4UE39 в UniProtKB). Все эти семь белков — тоже ABC-транспортеры бактерий рода Candidatus Liberibacter (4 разных вида). Совпадающие на 90% белки помещены в кластер UniRef90_A0A0P6RFB0, основанный на сравнении с белком с идентификатором A0A0P6RFB0. Это ровно тот же самый белок, что и исследуемый (RefSeq: WP_015452621.1), однако отличается от него тем, что был найден в другом штамме (YCPsy, C6XF58 найден в psy). Что логично, ровно ту же картину видим и в кластере с полными совпадениями (UniRef100_A0A0P6RFB0).

3

Таблица 2. Результаты сеансов поиска в UniProt
Текст запроса
Количество результатов
Количество проверенных результатов
1 periplasmic solute binding protein 33 939 503
name:"periplasmic solute binding protein" 3 185 0
2 periplasmic solute binding protein taxonomy:rhizobiaceae 1 413 21
name:"periplasmic solute binding protein" taxonomy:rhizobiaceae 451 0
3 periplasmic solute binding protein taxonomy:proteobacteria 27 943 450
name:"periplasmic solute binding protein" taxonomy:proteobacteria 1 921 0
4 name:"histone" 87 840 2 045
name:"histone" taxonomy:phaeophyceae 39 0
name:"histone" taxonomy:ciliophora 447 61
5 name:"histone" 87 840 2 045
Через ExPASy: ENZYME ищем все ферменты со словом «histone».
name:"histone deacetylase" OR name:"histone acetyltransferase" OR name:"histone-lysine N-methyltransferase" OR name:"JmjC domain-containing histone demethylase 1A" OR name:"histone-lysine name:"H3-K36" demethylase" OR name:"histone demethylase" OR name:"[histone H3]-lysine-36 demethylase" 1 598 160

4

В UniProt одинаковые по последовательности белки могут иметь два разных действующих идентефикатора в зависимости от того, в каком организме белок описан. В RefSeq этого нет, однако они восполняют это новой базой UniRef, которая справляется с теми же задачами, которые стояли перед RefSeq.

База UniProt содержит большее, чем RefSeq, число ссылок на другие источники информации: PDB, KEGG, OrthoDB и проч. Также более разнообразны инструменты работы, интегрированные в интерфейс.

5

Рассмотрим историю изменений состояния информации о белке на примере транскрипционного фактора и глобального регулятора хроматина белка SATB1. Начиная с октября 1993 года и заканчивая сегодняшним днём запись об этом белке была изменена суммарно 158 раз. С 1993 года поменялись стандарты оформления информации в каталоге; к списку из четырёх учёных добавились ещё сотни фамилий; стало известно большое множество изоформ белка; была изучена его роль в жизни организма. Интересно, что после первой публикации в 1993 году сама аминокислотная последовательность белка не была исправлена.

Серьёзной была поправка, совершённая 3 ноября 2009 года. Она была сделана после того, как были завершены полное секвенирование и анализ 21 243 человеческих кДНК. Стало известно об альтернативном сплайсинге, многие учёные предположили тонкости механизмов работы этого белка.

6

Таблица 3. Специальные обозначения в UniProt
Явление
Обозначение
Пример
Остаток селеноцистеина «Selenocysteine» в ключевых словах;
В сиквенсе нестандартное однобуквенное обозначение — «U»
P24183
Остаток пирролизина «pyrrolysine» в ключевых словах;
В сиквенсе нестандартное однобуквенное обозначение — «O»
Q8TTA5
Посттрансляционная модицикация Специальное поле «PTM:» P17590
Альтернативный сплайсинг Указан в качестве значения «Event=» Q01826

© Исаев Сергей,