Идентификатор сборки RefSeq: GCF_000018525.1
Ссылка на страницу из базы NCBI Datasets Genome:GCF_000018525.1
Идентификатор сборки INSDC: GCA_000018525.1
Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_000018525.1)
Идентификатор протеома: UP000001385
Статус: Other proteome
Для нахождения референсного протеома в Proteomes был сделан запрос, указывающий TaxID изучаемого вида бактерии: (taxonomy_id:36855), который выдал протеом, описанный выше и еще 21 избыточный протеом, которые нельзя использовать в качестве референсных. Родительским таксоном для Brucella canis, согласно базе Taxonomy, является род Brucella (taxonomy_id:234), для которого было найдено: Reference proteomes(6), Other proteomes(49), Redundant proteomes(817), Excluded proteomes(60). В рамках работы 1 семестра была изучена филогения рода Brucella, поэтому из 6 представленных референсных протеомов был выбран протеом Brucella abortus как наиболее близкородственной.
Status: Reference, Proteome ID: UP000002719, Organism: Brucella abortus (strain 2308), Taxon ID: 359391, Protein count: 3023, CPD: Standard, BUSCO: C:99.2% (S:99.2% D:0%) F:0.2% M:0.6%.
>
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000002719' -O UP000002719.swiss.gz
Для оценки количества ферментов в протеоме с помощью UniprotKB был сделан запрос на поиск белков с каталитической активностью в выбранном референсном протеоме (proteome:UP000002719) AND (go:0003824) - получено 1399 находок. При этом указанние класса фермента (ec:*) уменьшает количество находок до 953 (рис. 2), из чего можно понять, что не для всех белков, обладающих ферментативной активностью, указан класс фермента в формате "EC=_._._._"
С помощью команды bash найдено 917 строчек, в которых есть указание класса фермента, но полученное значение находок меньше, чем у UniProtKB, так как не считаются дублирующиеся строчки, так что в UniProtKB для одного белка, возможно, существует несколько его записей или белки выполняют одну и ту же функцию.
zgrep '^DE' UP000002719.swiss.gz | grep -e 'EC='| sort -u | wc -l
Поиск по окончанию слова 'ase' не даёт достоверного результата - 2177 строк, так как среди них содержатся записи белков, не являющихся ферментами, но их рекомендуемое название заканчивается на 'ase', например,
zgrep '^DE' UP000002719.swiss.gz | grep -e 'ase'| sort -u | wc -l