Практикум 8.UniProt Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке.

Бактерии Streptomyces rimosus subsp. rimosus ATCC 10970 соответствует идентификатор сборки GCF_000331185.2.

Идентификатор последней версии сборки INSDC: GCA_000331185.2

Для поиска протеома, соответствующего геномной сборке был использован поисковый запрос: (genome_assembly: GCA_000331185.2). В выдаче присутствовал один протеом: UP000011074, находящийся в статусе other proteome (прочие).

2. Поиск и скачивание референсного протеома.

При запросе (taxonomy_id:1265868) в выдаче присутствовала единственная сборка, описанная в пункте 1. Следовательно, стоит провести поиск по родительскому таксону(Streptomyces rimosus subsp. rimosus): (taxonomy_id:132474). В выдаче также не оказалось референсных протеомов. Поиск по Streptomyces rimosus (taxonomy_id:1927) не помог получить референсный протеом. После поиска по Streptomyces (taxonomy_id: 1883) был выбран референсный протеом UP000015423 бактерии Streptomyces collinus (strain DSM 40733 / Tue 365), т. к. он имел CPD standard и BUSCO 99,98%.

Для скачивания протеома использовалась соедующая команда:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000015423)' -O UP000015423.swiss.gz

3. Оценка количества ферментов в протеоме

Для оценки количества ферментов исследуемой бактерии с помощью UniProtKB использовался поиск по протеому и EC: (proteome:UP000015423) AND (ec:*). В выдаче получилось 964 результата. Поиск также проводился в командной строке:

zgrep 'CC' ~/term2/pr8/*.swiss.gz | grep -c 'CATALYTIC ACTIVITY'

Этот конвейер проводил поиск по наличию тематического блока 'CATALYTIC ACTIVITY' в поле CC. Получилось значение в 919.

Второй конвейер искал код EC в поле DE и нашел 967 ферментов:

zgrep '^DE' ~/term2/pr8/*.swiss.gz | grep -c 'EC='

Как видно из выдачи, в первом случае было найдено меньше ферментов, чем в UniProtKB. Скорее всего это связано с тем, что поле в CC не обязательно вносить информацию о каталитической активности белка потому, что это поле может использоваться для любых других комментариев. Во втором случае конвейер посчитал ферментов больше, чем было в UniProtKB. По опыту предудущих практикумов можно сказать, что некоторые ферменты у этого рода бактерий точно имеют несколько видов ферментативной активности, поэтому при использовании этого конвейера такие ферменты будут считаться за несколько.

4. Анализ протеома консольными средствами

С помощью конвейера я определил количество белков, у которых первая аминокислота не является метионином:

zgrep -A1 '^SQ' ~/term2/pr8/*.swiss.gz | grep -v '-' | grep -v 'SQ' | tr -d ' ' |grep -v '^M*'| wc -l

Таким образом, белков, начинающихся не с метионина не оказалось. Это говорит об отсутствии посттрансляционных модификаций по этой аминокислоте у исследуемой бактерии.