Uniprot и Refseq Protein

Задание 1

Таблица 1. Выдача Uniprot по PDB ID 4XPO*

Uniprot ID A0A0F7R6D6_9SPHI
Uniprot AC A0A0F7R6D6
SubName Alpha-galactosidase
RefSeq ID (не найдено в результатах поиска)
PDB ID 4XPO, 4XPP, 4XPQ, 4XPR, 4XPS
Protein length (aa) 719
Protein weight (Da) 81519

* - по выданному RefSeq ID ничего не найдено

Задание 2

Таблица 2. Описание кластеров UniProt

Кластер ID кластера Число белков в кластере Примечание
UniRef100 UniRef100_A0A0F7R6D6 1 Содержит только сам исходный белок
UniRef90 UniRef90_F0S4X2 2 Содержит сам белок и гомолог от той же бактерии
UniRef50 UniRef50_A0A0B8XV22 81 Белки в данном кластере, в основном, можно разделить на две группы - ABC-транспортеры и гидролазы различных видов - глюкозидазы, ксилозидазы и глюкозил-гидролазы, последние - из семейства 31

Задание 3

Таблица 3. Запросы к UniProt

Текст запроса Число белков Из них в Swiss-Prot Примечание
name:"alpha galactosidase" 9699 90 Значительное число белков во множестве таксонов
name:"alpha galactosidase" taxonomy:"Sphingobacteriaceae [84566]" 65 0 ---
name:"alpha galactosidase" taxonomy:"Bacteroidetes [976]" 1023 10 ---
name:histone 87840 2045 ---
name:histone taxonomy:arthropoda 21016 137 Максимальное число гистонов описано у Drosophila melanogaster
name:histone taxonomy:"Fungi [4751]" 16600 503 Максимальное число гистонов описано у дрожжей (Yeast)
name:trypsin 11309 308 ---
name:trypsin "trypsin inhibitor" 2468 197 ---

Задание 4

Выполнено быть не может, так как поиск по базе данных RefSeq не дает результатов.

Задание 5

В истории изменений моего белка присутствует 7 версий. В первой версии, от 22 июля 2015 года, белок указан как "Predicted", многие разделы отсутствуют. В версиях 2-3 белок имеет статус "Inferred from homology", начиная с четвертой - "Evidence at protein level". С четвертой версии присутствуют номера PDB-моделей, а также номера, судя по всему, других баз данных. После четвертой версии изменения не имеют принципиального характера. Дата последней версии - 13 апреля 2016 года.

Задание 6

Метилирование, ацетилирование и фосфорилирование отмечаются как MOD_RES в разделе FT, наличие ионов металла как METAL в том же отделе, гликозилирование - CARBOHYD в разделе FT. Дисульфидные связи - DISULFID в разделе FT. Альтернативный сплайсинг - VAR_SEQ, варианты аминокислот в позиции - VARIANT A1 -> A2, где A1, A2 - варианты аминокислоты. Селеноцистеин обозначается U, пирролизин - O.


© Котюргин Александр, 2015