UniProt Proteomes, EMBOSS

Поиск протеома, соответствующего геномной сборке

Cсылка на страницу сборки в базе NCBI Datasets Genome

Идентификатор последней версии сборки в INSDC (GenBank): GCA_000009205.2

Идентификатор последней версии сборки в RefSeq: GCF_000009205.2

Поисковый запрос: (genome_assembly:GCA_000009205.2)

Идентификатор протеома: UP000001978

Статус протеома: Other proteome


Поиск и скачивание референсного протеома

Так как статус протеома моей бактерии - Other proteome, мне потребовалось осуществлять поиск референсного протеома того же вида, его TaxID - 1496, поисковой запрос: (proteome_type:1) AND (taxonomy_id:1496). Был получен 1 результат.

Затем с помощью команды wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP001510562)' -O UP001510562.swiss.gz был скачан файл с белковыми записями.


Поиск и скачивание референсного протеома

В результате анализа файла референсного протеома UP001510562.swiss.gz с помощью конвейеров

zgrep -e '^ID' -e '^FT *HELIX' UP001510562.swiss.gz | grep -B1 'HELIX' | grep '^ID' | wc -l

zgrep -e '^ID' -e '^FT *TRANSMEM' UP001510562.swiss.gz | grep -B1 'TRANSMEM' | grep '^ID' | wc -l

было установлено, что количество записей, содержащих ключ HELIX и TRANSMEM в поле FT, равно 0.

Это может быть связано с тем, что данный протеом представлен преимущественно нерецензированными записями (TrEMBL), для которых аннотации вторичной структуры и трансмембранных доменов не являются обязательными и могут отсутствовать.


Оценка количества ферментов в протеоме

Поисковой запрос №1: (keyword:KW-0378) AND (proteome:UP001510562)

Количество находок: 252

Находятся только белки, аннотированные ключевым словом Hydrolase, то есть только один класс ферментов (гидролазы).


Поисковой запрос №2: (ec:*) AND (proteome:UP001510562)

Количество находок: 540

Находятся все белки, у которых есть EC-номер (Enzyme Commission number). EC-номер присваивается только белкам с экспериментально подтверждённой ферментативной активностью, независимо от класса фермента.


Разница между оценками (540 против 245) показывает, что гидролазы составляют около 45% от всех ферментов протеома, а остальные 55% приходятся на другие классы.