Учебный сайтик
Кирилла Прокаповича

Поиск протеома

В NCBI у Pusillibacter faecalis указана версия геномной сборки в RefSeq GCF_018408705.1, а индентификатор последней геномной сборки INSDC: GCA_018408705.1. В UniProt Proteomes по продвинутому поиску по сборке генома GCA_018408705.1 (поисковой запрос:(genome_assembly:GCA_018408705.1)) ID референсного протеома UP000679848.

Поиск и скачивание референсного протеома

Чтобы найти протеом я сначал использовал поиск по роду Pusillibacter и поиск референсных протеомов (поисковой запрос: (taxonomy_id:2892397) AND (proteome_type:1)). У этого протеома ID UP000679848. Для скачивания протеома я использовал этот скрипт.

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=UP000679848' -O UP000679848.swiss.gz

Оценка количества ферментов в протеоме

При вводе конвейера ниже получается 499 фермента, это 14,4% от количества всех белков, т.е. бактерия проявляет низкую ферментативную активность, так как количество ферментов в протеоме обычно варьируется от 20 до 40%, что может указывать на узкий диапазон субстратов, на котором может развиваться данный вид бактерии. В UniProtKB по запросу (proteome:UP000679848) AND ((ec:1) OR (ec:2) OR (ec:3) AND (ec:4) OR (ec:5) OR (ec:6) OR (ec:7)) выдало 370 записей, что меньше, чем количество ферментов, которые были посчитаны с помощью скрипта. Это может быть связано с тем, что у одного фермента может быть несколько функций у фермента, поэтому консоль их посчитала несколько раз.

zcat UP000679848.swiss.gz | grep -e '^DE' | grep -c "EC="

Анализ протеома консольными средствами

Для подсчета кол-ва различных первых аминокислот у белков, я использовал конвейер, приведенный ниже. Этот конвейер выдал 3463 M, т.е. все белки начинаются с метионина.

zcat UP000679848.swiss.gz | grep -A1 --no-group-separator -e "^SQ" | grep -v -e "^SQ" | tr -d ' ' | cut -c 1 | sort | uniq -c