Геном Achromobacter xylosoxidans, который я анализировала в прошлом семестре, имеет идентификатор GCF_016728825.1 в базе данных RefSeq. Поиск по NCBI Datasets Genome вывел на страницу, из содержания которой я узнала, что последняя версия этой сборки имеет код INSDC GCA_016728825.1. Cоответствующий протеом в UniProt Proteomes я нашла по поисковому запросу "(genome_assembly:GCA_016728825.1)". Этот протеом имеет идентификатор UP000596189 и относится к избыточным (заменен UP001141992).
Поиск по запросу "(organism_id:85698) AND (proteome_type:1)" не дал результатов, что означает, что для данного вида нет референсного протеома. Для рода Achromobacter я нашла ("(taxonomy_id:222) AND (proteome_type:1)") два референсных протеома и выбрала тот (UP000494272), пан-протеом которого содержит белки протеома UP001141992, принадлежащего виду Achromobacter xylosoxidans. Этот референсный протеом я скачала с помощью команды "wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000494272&format=swiss&compressed=true' -O term2/pr8/UP000494272.swiss.gz".
Я, до заглядывания в подсказки (честно!), решила проверить, все ли белки изучаемого мной протеома начинаются с метионина. Конвейер "zcat UP000494272.swiss.gz | seqret -filter | grep -A 1 '^>' | grep -v '^>' | grep -c '^M' " выдал число 5620, равное количеству белков в протеоме. Это был ожидаемый результат, потому что, я полагаю, процедура поиска открытых рамок считывания в геноме предполагает наличие метионина на первой позиции.
Применение конвейера "zgrep '^PE' UP000494272.swiss.gz | sort | uniq -c" позволило оценить характер распределения белков протеома по степени достоверности их существования:
Получается, что ни один из белков этого протеома не был изучен непосредственно на уровне белка. Кроме того, бóльшую часть протеома составляют белки, для которых не найдены гомологи, что также свидетельствует о его плохой аннотации.