Proteomes
Поиск протеома
Ранее я изучала Lactobacillus amylovorus GRL1118. По запросу GCA_000194115.1 в базе Proteomes в UniProt был найден 1 протеом (ссылка ниже).
Протеом Lactobacillus amylovorus GRL1118
Идентификатор геномной сборки в RefSeq: GCF_000194115.1; Идентификатор INSDC (GenBank/ENA/DDBJ): GCA_000194115.1
ID: UP000008140
Status: Избыточный протеом. Этот протеом избыточный для UP001321306
Рис 1. Протеом Lactobacillus amylovorus GRL1118
Upd: За время работы над пратикумом данный протеом был разжалован из референсных :(
Поиск и скачивание референсного протеома
Найдем референсный протеом среди других штаммов. По запросу (taxonomy_id:1604) в базе Proteoms в UniProt было найдено 57 штаммов. Один из них — Lactobacillus amylovorus subsp. animalium.
Протеом Lactobacillus amylovorus subsp. animalium
Команда для установки записи:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP001332503%29%29' -O UP001332503.swiss.gz
Для поиска количества белков, содержащих спирали, я сделала следующий конвейер:
zcat UP001332503.swiss.gz | grep -e 'HELIX' -e '^//' | grep '//' | sort | uniq -c
Было найдено 2018 белков, однако данный конвейер ищет любое упоминание 'HELIX', когда в задании было указано смотреть на FT
Я сделала другой конвейер, который ищет упоминание 'HELIX' только в поле FT:
zcat UP001332503.swiss.gz | grep -e '^//' -e 'HELIX' | grep -B 1 '^FT' | grep '//' | uniq -c
Он не выдал результатов. Поэтому я скачала референсный протеом, в котором вероятнее всего будут лучше аннотированы белки. Таким протеомом стал протеом сенной палочки (UP000001570). Там было найдено 709 белков. Можно сделать вывод, что в моем протеоме пока что нет аннотаций для спиралей.
Оценка количества ферментов в протеоме
С помощью поисковых запросов в базе UniProtKB было проанализированно количество белков, обладающих ферментативной активностью в данном протеоме
Таблица 1. Сравнение количества находок
| Запрос | Количество находок |
|---|---|
| (proteome:UP001332503) AND (ec:*) | 406 |
| (proteome:UP001332503) AND (protein_name:*ase) | 945 |
Результаты оценок отличаются в два раза. Это может быть связано с тем, что EC присвоены не всем ферментам, а только тем, которые плохо изучены или были недавно открыты.