Практикум №8. UniProt Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке

Сначала из таблицы локальных особенностей бактерии Streptomyces rutgersensis был получен идентификатор сборки RefSeq: GCF_014216335.1

Ссылка на страницу из базы NCBI Datasets Genome, которая соответствует этой сборке. На странице в поле "Submitted GenBank assembly" указан идентификатор последней версии сборки INSDC: GCA_014216335.1

В поисковой строке по UniProt Proteomes был введён запрос (genome_assembly: GCA_014216335.1), на что был выдан искомый протеом. Из записи были получены идентификатор протеома (UP000515764) и его статус (Redundant proteome). Он является избыточным для UP000660975.

2. Скачивание протеомов

При расширенном поиске в UniProt Proteomes был указан (taxonomy_id:53451), который соответствует видовому названию исследуемой бактерии. В ответ на запрос были получены 2 записи протеомов данного организма.

Одна из них (UP000515764) соответсвует предыдущему запросу по идентификатору INSDC, а вторая (UP000480212) ранее получена не была. Однако обе они являются избыточными (redundant).

Для выбора референсного протеома наиболее близкого организма фильтр по таксономии был изменён на (taxonomy_id:1883), что соответсвует поиску протеомов организмов, входящих в состав рода Streptomyces. Было получено 2541 запись. После добавления фильтра статуса протеома (Reference proteomes) количество записей уменьшилось до 370. Среди записей был выбран протеом Streptomyces collinus (strain DSM 40733 / Tue 365), как протеом с наивысшей оценкой BUSCO (C:99.8% (S:99.5% D:0.3%) F:0% M:0.2%) и категорией Standard.

Для загрузки последовательности использовался скрипт: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000015423)' -O UP000015423.swiss.gz

3. Оценка количества ферментов в протеоме

Для оценки количества ферментов с помощью UniprotKB, представленных в протеоме UP000015423, был составлен следующий запрос:(proteome:UP000015423)AND(EC:*)

Поиск выдал 971 запись о белках, обладающих каталитической активностью.

При оценке протеома с помощью командной строки Bash был написан следующий конвеер: zgrep "^DE *EC" UP000015423.swiss.gz | wc -l

Он выбирает строки поля DE, содержащие один или несколько кодов EC, а затем подсчитывает их количество. С помощью данного конвеера был получен результат - 967 строк белков с каталитической активностью.

Различие в результатах при поиске с помощью UniprotKB и Bash могут быть обусловлены множеством вариантов кодов EC в поле DE, из-за чего конвеер учитывет не все записи белков, имеющих ферментативную активность.

4. Анализ протеома консольными средствами

В качестве задачи по анализу простеома было выбрано определение наличия последовательностей белков, начинающихся не с метионина.

Для этого в командной строке Bash был написан следующий конвейер: zgrep -A 1 "^SQ *SEQUENCE" UP000015423.swiss.gz | grep -v '^SQ' | grep -v '^--' | tr -d " " | grep -v '^M' | wc -l

Было выясненно, что все последовательности белков данного протеома в качестве первой аминокислоты имеют метионин.

Это может быть следствием стандартизации аннотации данных, когда метионин фиксируется в качестве аминокислоты, даже если при реальном секвенировании он не наблюдается в случае посттрансляционных модификаций, приводящих к его удалению.