Протеомы и EMBOSS
Поиск протеома
Для того, чтобы найти протеом в базе данных UniProt, нам нужен идентификатор геномной сборки INSDC из таблицы локальных особенностей.
- Страница сборки в базе NCBI Datasets Genome
- Идентификатор в INSDC: GCA_000950575.1
- Идентификатор в RefSeq: GCF_000950575.1
- Поисковый запрос: (genome_assembly:GCA_000950575.1)
- Идентификатор протеома: UP000061839
- Статус протеома: Reference proteome
Скачивание референсного протеома
Для скачивания протеома был сформирован URL:
https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000061839)
При помощи этого URL и команды wget, мы получаем файл UP000061839.swiss.gzОценка количества белков, содержащих альфа-спирали, и ферментов
Для того, чтобы оценить количество ферментов в протеоме можно воспользоваться продвинутым поиском в UniProtKB.
- (proteome:UP000061839) AND((keyword:KW-0560) OR (keyword:KW-0378) OR (keyword:KW-0413) OR (keyword:KW-1278) OR (keyword:KW-0808) OR (keyword:KW-0436) OR (keyword:KW-0456))
1091 результат
- (proteome:UP000061839) AND (cc_function:enzyme)
27 результатов