Euzebya pacifica DY32-46 UP000264006
Для бактерии Euzebya pacifica DY32-46 была найдена геномная сборка в базе NCBI:
| Параметр | Значение | |
|---|---|---|
| Ссылка на сборку взята с сайта NCBI Datasets Genome. Идентификаторы RefSeq и INSDC указаны на той же странице. | Ссылка на страницу сборки | https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_003344865.1/ |
| RefSeq ID | GCF_003344865.1 |
|
| INSDC ID (GenBank) | GCA_003344865.1 |
Поисковый запрос в UniProt Proteomes:
(genome_assembly:GCA_003344865.1)
Результаты поиска:
| Параметр | Значение | |
|---|---|---|
| Запрос в Proteomes выдал протеом UP000264006. Статус указан на странице протеома. | Идентификатор протеома (UPID) | UP000264006 |
| Статус протеома | Reference proteome (эталонный) | |
| Количество записей в UniProtKB | 5 625 |
Так как для Euzebya pacifica существует референсный протеом (UP000264006), дальнейший поиск не потребовался. Использован TaxID: 1608957.
Поисковый запрос для проверки:
(taxonomy_id:1608957) AND (proteome_type:1)
Команда для скачивания (EMBOSS seqret):
seqret -filter 'sw:UP000264006' -outseq ~/term2/pr8/UP000264006.swiss -osformat swiss
gzip ~/term2/pr8/UP000264006.swiss
В результате получен файл ~/term2/pr8/UP000264006.swiss.gz.
Для подсчёта аннотаций HELIX и TRANSMEM была написана программа на Python (count.py), которая анализирует файл протеома и подсчитывает количество белков, содержащих каждый из ключей.
Результат выполнения:
python count.py UP000264006.swiss.gz
HELIX: 0
TRANSMEM: 998
BOTH: 0
| Показатель | Значение | Доля | |
|---|---|---|---|
| Количество белков с HELIX и TRANSMEM посчитано программой count.py. | Всего белков в протеоме | 5 625 | 100% |
| Белки с аннотацией HELIX | 0 | 0% | |
| Белки с аннотацией TRANSMEM | 998 | 17.7% | |
| Белки с обоими типами | 0 | 0% |
Большинство белков в протеоме UP000264006 имеют статус TrEMBL (автоматическая аннотация), а не Swiss-Prot (ручная аннотация).
Для оценки количества ферментов использованы два подхода: поиск по полю Enzyme Commission number и поиск по ключевым словам.
Запрос 1 (по полю EC):
(proteome:UP000264006) AND (ec:*)
Результат: 754 белка (13.4% от 5 625)
Запрос 2 (по ключевым словам):
(proteome:UP000264006) AND (keyword:enzyme OR keyword:hydrolase OR keyword:transferase OR keyword:oxidoreductase OR keyword:lyase OR keyword:isomerase OR keyword:ligase)
Результат: 1 691 белок (30.1% от 5 625)
| Метод оценки | Количество белков | Доля от общего числа (5 625) | |
|---|---|---|---|
| Запросы выполнялись на сайте UniProt в базе UniProtKB. | По полю EC (строгий метод) | 754 | 13.4% |
| По ключевым словам (расширенный метод) | 1 691 | 30.1% |
Оценка по EC-полю (13.4%) занижена, так как многие ферменты, особенно у малоизученных организмов, не имеют EC-номера. Оценка по ключевым словам (30.1%) может быть ближе к реальной доле ферментов, так как учитывает белки, аннотированные как ферменты на основе гомологии. Таким образом, истинная доля ферментов в протеоме Euzebya pacifica находится между 13.4% и 30.1%.
Файл для проверки: ~/term2/pr8/UP000264006.swiss.gz