UniProt Proteomes, EMBOSS

Поиск протеома, соответствующего геномной сборке

1) Идентификатор RefSeq геномной сборки бактерии Gloeobacter morelensis MG652769 - GCF_021018745.1. Идентификатор INSDC геномной сборки бактерии Gloeobacter morelensis MG652769 - GCA_021018745.1.

2) Для поиска протеома использовался поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_021018745.1)

3) Ссылка на страницу NCBI Datasets Genome, которая соответствует этой сборке.

4) Идентификатор протеома - UP001054846.

5) Статус протеома - исключено, в скобках указано "отложено для дальнейшего исследования".

Поиск и скачивание референсного протеома

Тот протеом, который был мною найден в начале практикума не является референсным. В связи с этим я попробовал найти референсные протеомы в других штаммах бактерии Gloeobacter morelensis, но и здесь мне не удалось найти ни одного референсного протеома (выяснилось, что тот протеом, который был найден изначально, является единственным для вида Gloeobacter morelensis). После этого я попробовал найти референсные протеомы для других представителей рода Gloeobacter, введя в поисковую строку соответствующий запрос: (taxonomy_id:33071). Помимо исходного протеома было найдено ещё два, из которых я выбрал протеом бактерии Gloeobacter violaceus (штамм ATCC 29082 / PCC 7421) (Proteome ID - UP000000557). Затем я задал в поисковой строке UniProtKB поиск по идентификатору выбранного протеома (proteome:UP000000557) и нашёл записи о всех белках выбранного протеома (их 4406). Далее я скачал все белковые записи командой:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000557' -O UP000000557.swiss.gz

Оценка количества ферментов в протеоме

Для оценки количества белков, обладающих ферментативной активностью, мною был выполнен поисковый запрос в UniProtKB: (proteome:UP000000557) AND (ec:*). В результате была найдена 691 запись. После этого для сравнения результатов поиска был составлен следующий конвейер в bash:

zgrep '^DE' ~/term2/pr8/UP000000557.swiss.gz | grep -c 'EC='

Данный конвейер выдал 710 результатов. Возможно, расхождения в результатах могут быть связаны с тем, что один и тот же фермент может катализировать сразу несколько реакций и, соответственно, иметь несколько кодов EC.

Анализ протеома консольными средствами

Изначально мне хотелось узнать, сколько видов фикобилипротеинов содержится в протеоме этой цианобактерии. Эта информация могла бы дать некоторое представление о том, как организованы фикобилисомы у этой цианобактерии, но, к сожалению, я не знаю точно, как правильно составить конвейер в bash для получения этой информации (и вообще можно ли его составить). Поэтому я решил выяснить, сколько белков этого протеома начинаются с метионина. Для этого я составил следующий конвейер:

zgrep -A1 '^SQ' ~/term2/pr8/UP000000557.swiss.gz | grep -v '^SQ' | grep -c '^     M'

Результат выполнения - 4406 строк. Так как из других выполненных заданий практикума выяснилось, что всего белков в протеоме 4406, то можно сделать вывод, что все белки этого протеома начинаются с метионина.