1) Идентификатор RefSeq геномной сборки бактерии Gloeobacter morelensis MG652769 - GCF_021018745.1. Идентификатор INSDC геномной сборки бактерии Gloeobacter morelensis MG652769 - GCA_021018745.1.
2) Для поиска протеома использовался поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_021018745.1)
3) Ссылка на страницу NCBI Datasets Genome, которая соответствует этой сборке.
4) Идентификатор протеома - UP001054846.
5) Статус протеома - исключено, в скобках указано "отложено для дальнейшего исследования".
Тот протеом, который был мною найден в начале практикума не является референсным. В связи с этим я попробовал найти референсные протеомы в других штаммах бактерии Gloeobacter morelensis, но и здесь мне не удалось найти ни одного референсного протеома (выяснилось, что тот протеом, который был найден изначально, является единственным для вида Gloeobacter morelensis). После этого я попробовал найти референсные протеомы для других представителей рода Gloeobacter, введя в поисковую строку соответствующий запрос: (taxonomy_id:33071). Помимо исходного протеома было найдено ещё два, из которых я выбрал протеом бактерии Gloeobacter violaceus (штамм ATCC 29082 / PCC 7421) (Proteome ID - UP000000557). Затем я задал в поисковой строке UniProtKB поиск по идентификатору выбранного протеома (proteome:UP000000557) и нашёл записи о всех белках выбранного протеома (их 4406). Далее я скачал все белковые записи командой:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000557' -O UP000000557.swiss.gz
Для оценки количества белков, обладающих ферментативной активностью, мною был выполнен поисковый запрос в UniProtKB: (proteome:UP000000557) AND (ec:*). В результате была найдена 691 запись. После этого для сравнения результатов поиска был составлен следующий конвейер в bash:
zgrep '^DE' ~/term2/pr8/UP000000557.swiss.gz | grep -c 'EC='
Данный конвейер выдал 710 результатов. Возможно, расхождения в результатах могут быть связаны с тем, что один и тот же фермент может катализировать сразу несколько реакций и, соответственно, иметь несколько кодов EC.
Изначально мне хотелось узнать, сколько видов фикобилипротеинов содержится в протеоме этой цианобактерии. Эта информация могла бы дать некоторое представление о том, как организованы фикобилисомы у этой цианобактерии, но, к сожалению, я не знаю точно, как правильно составить конвейер в bash для получения этой информации (и вообще можно ли его составить). Поэтому я решил выяснить, сколько белков этого протеома начинаются с метионина. Для этого я составил следующий конвейер:
zgrep -A1 '^SQ' ~/term2/pr8/UP000000557.swiss.gz | grep -v '^SQ' | grep -c '^ M'
Результат выполнения - 4406 строк. Так как из других выполненных заданий практикума выяснилось, что всего белков в протеоме 4406, то можно сделать вывод, что все белки этого протеома начинаются с метионина.