Proteomes

Поиск протеома

Ранее я изучала Lactobacillus amylovorus GRL1118. По запросу GCA_000194115.1 в базе Proteomes в UniProt был найден 1 протеом (ссылка ниже).

Протеом Lactobacillus amylovorus GRL1118

Идентификатор геномной сборки в RefSeq: GCF_000194115.1; Идентификатор INSDC (GenBank/ENA/DDBJ): GCA_000194115.1

ID: UP000008140

Status: Избыточный протеом. Этот протеом избыточный для UP001321306

Протеом Lactobacillus amylovorus GRL1118
Рис 1. Протеом Lactobacillus amylovorus GRL1118

Upd: За время работы над пратикумом данный протеом был разжалован из референсных :(

Поиск и скачивание референсного протеома

Найдем референсный протеом среди других штаммов. По запросу (taxonomy_id:1604) в базе Proteoms в UniProt было найдено 57 штаммов. Один из них — Lactobacillus amylovorus subsp. animalium.

Протеом Lactobacillus amylovorus subsp. animalium

Команда для установки записи:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP001332503%29%29' -O UP001332503.swiss.gz

Для поиска количества белков, содержащих спирали, я сделала следующий конвейер:

zcat UP001332503.swiss.gz | grep -e 'HELIX' -e '^//' | grep '//' | sort | uniq -c

Было найдено 2018 белков, однако данный конвейер ищет любое упоминание 'HELIX', когда в задании было указано смотреть на FT

Я сделала другой конвейер, который ищет упоминание 'HELIX' только в поле FT:

zcat UP001332503.swiss.gz | grep -e '^//' -e 'HELIX' | grep -B 1 '^FT' | grep '//' | uniq -c

Он не выдал результатов. Поэтому я скачала референсный протеом, в котором вероятнее всего будут лучше аннотированы белки. Таким протеомом стал протеом сенной палочки (UP000001570). Там было найдено 709 белков. Можно сделать вывод, что в моем протеоме пока что нет аннотаций для спиралей.

Оценка количества ферментов в протеоме

С помощью поисковых запросов в базе UniProtKB было проанализированно количество белков, обладающих ферментативной активностью в данном протеоме

Таблица 1. Сравнение количества находок

Запрос Количество находок
(proteome:UP001332503) AND (ec:*) 406
(proteome:UP001332503) AND (protein_name:*ase) 945

Результаты оценок отличаются в два раза. Это может быть связано с тем, что EC присвоены не всем ферментам, а только тем, которые плохо изучены или были недавно открыты.