Карань Анна
студентка факультета биоинженерии и бионформатики

Таблица 1. Общая информация о белке
Uniprot IDQ9JYV4_NEIMB
Uniprot ACQ9JYV4
Refseq IDNP_274428.1; WP_002225125.1
PDB ID2GTQ, 4PU2, 4PVB, 4PW4, 4QHP, 4QIR, 4QME, 4QPE, 4QUO, 5DYF
Длина867
Молекулярная масса97681Da
Рекомендуемое Unirpot названиеAminopeptidase N

Комментарии к таблице. Во всех записях PDB белок представлен одной цепью, и структура известна для всей это цепи. Этот фермент содержит металл цинк, но описан он только для 3-х первых PDB-файлов: 2GTQ, 4PU2 и 4PVB, представлены 3 иона: в положениях 293, 297, 316. В белке выделяют 2 домена, составляющие 75% всего белка.

Таблица 2. Описание кластеров Uniref
Идентификатор кластераКоличество белков в кластереЕще что-то, заслуживающее внимание
UniRef50_Q9JYV4190Среди организмов встречаются бактерии другого рода
UniRef90_Q9JYV4135Среди организмов все еще встречаются представители друго вида, что является следствием быстроты эволюции бактерий и нечеткого определение понятий рода и вида, особенно у прокариот
UniRef100_Q9JYV42Здесь бактерии уже одного вида и даже одной серогруппы

3. Результаты сеансов поиска в Uniprot.

Таблица 3. Результаты сеансов поиска в Uniprot
Текст запросаСколько нашлось белковСколько белков из раздела Reviewed
name:"aminopeptidase n"737526
name:"aminopeptidase n" taxonomy:neisseriaceae480
name:"aminopeptidase n" taxonomy:"Proteobacteria [1224]"37724
name:histone858782045
name:histone taxonomy:"Fungi [4751]"16501503
name:histone taxonomy:"Ciliophora [5878]"44161
name:trypsin11309301
name:trypsin name:inhibitor2558203

4. Сравнение информации, предоставляемой записями RefSeq и Uniprot

RefSeq не дает ссылки на другие базы данных, в отличие от Uniprot (строки с квалификатором DR) , что затрудняет быстрое получение всеобъемлющих данных о белке. В Uniprot для каждого белка огромные списки хэштегов, по которым просто найти близкие по функции, строению и т.д. белки. Также в Uniprot дается классификация организма, благодаря чему легко узнать встречаемость этого белка у близкородственных организмов.
Еще одно отличие, в описании особенностей последовательности белка в RefSeq больше конкретных регионов, сайтов связывания и т.д., а вот информации про металл нет (ну кроме того, что это цинк, что мы можем узнать из названия центра связывания), в отличие от Uniprot.
Если это обобщить, то можно сказать, что Uniprot удобнее для получения абсолютно полной иформации о белке, потому что там даются все возможные сыылки на другие базы данных, а также есть все удобства для поиска этого белка у других организмов, для поиска близкородственных белков или белков, близких по функции. RefSeq же удобнее наличием более полной конкретной информации об особенностях последовательности (по крайней мере для моего белка), однако за отсутствием ссылок, другого вы быстро не получите (ссылки на статьи есть в обеих базах данных).

5. История изменений записи Uniprot данного белка

Первые данные о последовательности появились 1 октября 2000 года, последняя версия - 103-я версия от 16 марта 2016 года. До 19 версии от 2005.03.01 входящее имя было Q9JYV4, теперь же оно Q9JYV4_NEIMB. Все версии получаются из базы данных TrEMBL. Далее обновлений, начиная примерно с 2014 начали учащаться. Последняя версия очень сильно отличается от первой, во-первых появилось больше статей по исследованию данного белка, что соответстенно значительно увеличило все разделы описания, хотя бы сами ссылки на статьи. Раздел DR увеличился раз в 20, и таких ссылок как в первой версии там вообще нет, это связано в увеличичением числа баз данных, с каждой из которых нужно собрать информацию. Появился новый раздел - KW, с хэштегами, что значительно упростило поиск близкородственных белков, белков, расположенных в тех же органах и т.д..
Кроме того появился раздел FT с описаниями особенностей белка. Естественно, что в первой версии его не было, потому что было проведено только одно исследование, соответственно в первой версии не указано, что это цинк-связывающий белок, не указаны границы различных доменов.
Даже раздел OC с систематикой изменился. В первой версии - "Bacteria; Proteobacteria; beta subdivision; Neisseriaceae; Neisseria", в последней - "Bacteria; Proteobacteria; Betaproteobacteria; Neisseriales; Neisseriaceae; Neisseria".

6. Представление некоторых необычных записей Uniprot

Таблица 3. Примеры различных явлений в записи Uniprot
ЯвлениеПример
Нестандартные аминокислотные остатки P24183: FT NON_STD 196 196 Selenocysteine.
Q8TTA5: FT NON_STD 356 356 Pyrrolysine. {ECO:0000250}.
Посттрансляционные модификации Гликозилирование. P17590: FT CARBOHYD 3 3 N-linked (GlcNAc...); by host. {ECO:0000255}.
Дисульфидные мостики Q43495: FT DISULFID 41 77 {ECO:0000250}.

Для поиска таких примеров воспользуемся поиском в HELP. Например, чтобы найти нестандартные аминокислоты, введем "Non-standard". Идем по ссылке "Nono-standard residue", где есть ссылки на белки с примерами нестандартных аминокслот. Таким же образом найдем примеры для всех остальных необычных явлений.


©Карань Анна, 2015