Практикум №8. UniProt Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке

Сначала из таблицы локальных особенностей бактерии Streptomyces rutgersensis был получен идентификатор сборки RefSeq: GCF_014216335.1

Ссылка на страницу из базы NCBI Datasets Genome, которая соответствует этой сборке. На странице в поле "Submitted GenBank assembly" указан идентификатор последней версии сборки INSDC: GCA_014216335.1

В поисковой строке по UniProt Proteomes был введён индентификатор INSDC, который выдал искомый протеом. Из записи были получены идентификатор протеома (UP000515764) и его статус (Redundant proteome). Он является избыточным для UP000660975.

2. Скачивание протеомов

При расширенном поиске в UniProt Proteomes был указан (taxonomy_id:53451), который соответствует видовому названию исследуемой бактерии. В ответ на запрос были получены 2 записи протеомов данного организма.

Одна из них (UP000515764) соответсвует предыдущему запросу по идентификатору INSDC, а вторая (UP000480212) ранее получена не была. Однако обе они являются избыточными (redundant).

Для выбора референсного протеома наиболее близкого организма фильтр по таксономии был изменён на (taxonomy_id:1883), что соответсвует поиску протеомов организмов, входящих в состав рода Streptomyces. Было получено 2541 запись. После добавления фильтра статуса протеома (Reference proteomes) количество записей уменьшилось до 370. Среди записей был выбран протеом Streptomyces collinus (strain DSM 40733 / Tue 365), как протеом с наивысшей оценкой BUSCO (C:99.8% (S:99.5% D:0.3%) F:0% M:0.2%) и категорией Standard.

Для загрузки последовательности использовался скрипт: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000015423)' -O UP000015423.swiss.gz

3. Оценка количества ферментов в протеоме