1. Поиск протеома, соответствующего геномной сборке Brucella canis ATCC 23365

Идентификатор сборки RefSeq: GCF_000018525.1

Ссылка на страницу из базы NCBI Datasets Genome:GCF_000018525.1

Идентификатор сборки INSDC: GCA_000018525.1

Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_000018525.1)

Идентификатор протеома: UP000001385

Статус: Other proteome

2. Поиск и скачивание референсного протеома

Для нахождения референсного протеома в Proteomes был сделан запрос, указывающий TaxID изучаемого вида бактерии: (taxonomy_id:36855), который выдал протеом, описанный выше и еще 21 избыточный протеом, которые нельзя использовать в качестве референсных. Родительским таксоном для Brucella canis, согласно базе Taxonomy, является род Brucella (taxonomy_id:234), для которого было найдено: Reference proteomes(6), Other proteomes(49), Redundant proteomes(817), Excluded proteomes(60). В рамках работы 1 семестра была изучена филогения рода Brucella, поэтому из 6 представленных референсных протеомов был выбран протеом Brucella abortus как наиболее близкородственной.

Status: Reference, Proteome ID: UP000002719, Organism: Brucella abortus (strain 2308), Taxon ID: 359391, Protein count: 3023, CPD: Standard, BUSCO: C:99.2% (S:99.2% D:0%) F:0.2% M:0.6%.

>
Результат выдачи
Рисунок 1. Результат выдачи
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000002719' -O UP000002719.swiss.gz

3. Оценка количества ферментов в протеоме

Для оценки количества ферментов в протеоме с помощью UniprotKB был сделан запрос на поиск белков с каталитической активностью в выбранном референсном протеоме (proteome:UP000002719) AND (go:0003824) - получено 1399 находок. При этом указанние класса фермента (ec:*) уменьшает количество находок до 953 (рис. 2), из чего можно понять, что не для всех белков, обладающих ферментативной активностью, указан класс фермента в формате "EC=_._._._"

Количественное соотношение ферментов разных классов
Рисунок 2. Количественное соотношение ферментов разных классов

С помощью команды bash найдено 917 строчек, в которых есть указание класса фермента, но полученное значение находок меньше, чем у UniProtKB, так как не считаются дублирующиеся строчки, так что в UniProtKB для одного белка, возможно, существует несколько его записей или белки выполняют одну и ту же функцию.

zgrep '^DE' UP000002719.swiss.gz | grep -e 'EC='| sort -u | wc -l

Поиск по окончанию слова 'ase' не даёт достоверного результата - 2177 строк, так как среди них содержатся записи белков, не являющихся ферментами, но их рекомендуемое название заканчивается на 'ase', например,

zgrep '^DE' UP000002719.swiss.gz | grep -e 'ase'| sort -u | wc -l

4. Анализ протеома консольными средствами

Далее были проанализированы белки, играющие роль в вирулентности бактерии.