Бактерии Streptomyces rimosus subsp. rimosus ATCC 10970 соответствует идентификатор сборки GCF_000331185.2.
Идентификатор последней версии сборки INSDC: GCA_000331185.2
Для поиска протеома, соответствующего геномной сборке был использован поисковый запрос: (genome_assembly: GCA_000331185.2). В выдаче присутствовал один протеом: UP000011074, находящийся в статусе other proteome (прочие).
При запросе (taxonomy_id:1265868) в выдаче присутствовала единственная сборка, описанная в пункте 1. Следовательно, стоит провести поиск по родительскому таксону(Streptomyces rimosus subsp. rimosus): (taxonomy_id:132474). В выдаче также не оказалось референсных протеомов. Поиск по Streptomyces rimosus (taxonomy_id:1927) не помог получить референсный протеом. После поиска по Streptomyces (taxonomy_id: 1883) был выбран референсный протеом UP000015423 бактерии Streptomyces collinus (strain DSM 40733 / Tue 365), т. к. он имел CPD standard и BUSCO 99,98%.
Для скачивания протеома использовалась соедующая команда:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000015423)' -O UP000015423.swiss.gz
Для оценки количества ферментов исследуемой бактерии с помощью UniProtKB использовался поиск по протеому и EC: (proteome:UP000015423) AND (ec:*). В выдаче получилось 964 результата. Поиск также проводился в командной строке:
zgrep 'CC' ~/term2/pr8/*.swiss.gz | grep -c 'CATALYTIC ACTIVITY'
Этот конвейер проводил поиск по наличию тематического блока 'CATALYTIC ACTIVITY' в поле CC. Получилось значение в 919.
Второй конвейер искал код EC в поле DE и нашел 967 ферментов:
zgrep '^DE' ~/term2/pr8/*.swiss.gz | grep -c 'EC='
Как видно из выдачи, в первом случае было найдено меньше ферментов, чем в UniProtKB. Скорее всего это связано с тем, что поле в CC не обязательно вносить информацию о каталитической активности белка потому, что это поле может использоваться для любых других комментариев. Во втором случае конвейер посчитал ферментов больше, чем было в UniProtKB. По опыту предудущих практикумов можно сказать, что некоторые ферменты у этого рода бактерий точно имеют несколько видов ферментативной активности, поэтому при использовании этого конвейера такие ферменты будут считаться за несколько.
С помощью конвейера я определил количество белков, у которых первая аминокислота не является метионином:
zgrep -A1 '^SQ' ~/term2/pr8/*.swiss.gz | grep -v '-' | grep -v 'SQ' | tr -d ' ' |grep -v '^M*'| wc -l
Таким образом, белков, начинающихся не с метионина не оказалось. Это говорит об отсутствии посттрансляционных модификаций по этой аминокислоте у исследуемой бактерии.