UniProt Proteomes, EMBOSS
Поиск протеома, соответствующего геномной сборке
Cсылка на страницу сборки в базе NCBI Datasets Genome
Идентификатор последней версии сборки в INSDC (GenBank): GCA_000009205.2
Идентификатор последней версии сборки в RefSeq: GCF_000009205.2
Поисковый запрос: (genome_assembly:GCA_000009205.2)
Идентификатор протеома: UP000001978
Статус протеома: Other proteome
Поиск и скачивание референсного протеома
Так как статус протеома моей бактерии - Other proteome, мне потребовалось осуществлять поиск референсного протеома того же вида, его TaxID - 1496, поисковой запрос: (proteome_type:1) AND (taxonomy_id:1496). Был получен 1 результат.
Затем с помощью команды wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP001510562)' -O UP001510562.swiss.gz был скачан файл с белковыми записями.
Поиск и скачивание референсного протеома
В результате анализа файла референсного протеома UP001510562.swiss.gz с помощью конвейеров
zgrep -e '^ID' -e '^FT *HELIX' UP001510562.swiss.gz | grep -B1 'HELIX' | grep '^ID' | wc -l
zgrep -e '^ID' -e '^FT *TRANSMEM' UP001510562.swiss.gz | grep -B1 'TRANSMEM' | grep '^ID' | wc -l
было установлено, что количество записей, содержащих ключ HELIX и TRANSMEM в поле FT, равно 0.
Это может быть связано с тем, что данный протеом представлен преимущественно нерецензированными записями (TrEMBL), для которых аннотации вторичной структуры и трансмембранных доменов не являются обязательными и могут отсутствовать.
Оценка количества ферментов в протеоме
Поисковой запрос №1: (keyword:KW-0378) AND (proteome:UP001510562)
Количество находок: 252
Находятся только белки, аннотированные ключевым словом Hydrolase, то есть только один класс ферментов (гидролазы).
Поисковой запрос №2: (ec:*) AND (proteome:UP001510562)
Количество находок: 540
Находятся все белки, у которых есть EC-номер (Enzyme Commission number). EC-номер присваивается только белкам с экспериментально подтверждённой ферментативной активностью, независимо от класса фермента.
Разница между оценками (540 против 245) показывает, что гидролазы составляют около 45% от всех ферментов протеома, а остальные 55% приходятся на другие классы.