← Назад к списку работ

Практикум №8: Работа с протеомами

Euzebya pacifica DY32-46 UP000264006

1. Поиск протеома, соответствующего геномной сборке

Для бактерии Euzebya pacifica DY32-46 была найдена геномная сборка в базе NCBI:

ПараметрЗначение
Ссылка на сборку взята с сайта NCBI Datasets Genome. Идентификаторы RefSeq и INSDC указаны на той же странице. Ссылка на страницу сборки https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_003344865.1/
RefSeq ID GCF_003344865.1
INSDC ID (GenBank) GCA_003344865.1

Поисковый запрос в UniProt Proteomes:

(genome_assembly:GCA_003344865.1)

Результаты поиска:

ПараметрЗначение
Запрос в Proteomes выдал протеом UP000264006. Статус указан на странице протеома. Идентификатор протеома (UPID) UP000264006
Статус протеома Reference proteome (эталонный)
Количество записей в UniProtKB 5 625
Примечание: Протеом не является избыточным (redundant) и не был удалён. Он состоит из хромосомы (CP031165, 5 038 белков) и плазмиды pEDY32-46I (CP031166, 587 белков).

2. Поиск и скачивание референсного протеома

Так как для Euzebya pacifica существует референсный протеом (UP000264006), дальнейший поиск не потребовался. Использован TaxID: 1608957.

Поисковый запрос для проверки:

(taxonomy_id:1608957) AND (proteome_type:1)

Команда для скачивания (EMBOSS seqret):

seqret -filter 'sw:UP000264006' -outseq ~/term2/pr8/UP000264006.swiss -osformat swiss
gzip ~/term2/pr8/UP000264006.swiss

В результате получен файл ~/term2/pr8/UP000264006.swiss.gz.

3. Оценка числа белков, содержащих альфа-спирали

Для подсчёта аннотаций HELIX и TRANSMEM была написана программа на Python (count.py), которая анализирует файл протеома и подсчитывает количество белков, содержащих каждый из ключей.

Результат выполнения:

python count.py UP000264006.swiss.gz
HELIX: 0
TRANSMEM: 998
BOTH: 0
ПоказательЗначениеДоля
Количество белков с HELIX и TRANSMEM посчитано программой count.py. Всего белков в протеоме 5 625100%
Белки с аннотацией HELIX 00%
Белки с аннотацией TRANSMEM 99817.7%
Белки с обоими типами 00%
Объяснение результатов:

Большинство белков в протеоме UP000264006 имеют статус TrEMBL (автоматическая аннотация), а не Swiss-Prot (ручная аннотация).

4. Оценка количества ферментов в протеоме

Для оценки количества ферментов использованы два подхода: поиск по полю Enzyme Commission number и поиск по ключевым словам.

Запрос 1 (по полю EC):

(proteome:UP000264006) AND (ec:*)

Результат: 754 белка (13.4% от 5 625)

Запрос 2 (по ключевым словам):

(proteome:UP000264006) AND (keyword:enzyme OR keyword:hydrolase OR keyword:transferase OR keyword:oxidoreductase OR keyword:lyase OR keyword:isomerase OR keyword:ligase)

Результат: 1 691 белок (30.1% от 5 625)

Метод оценкиКоличество белковДоля от общего числа (5 625)
Запросы выполнялись на сайте UniProt в базе UniProtKB. По полю EC (строгий метод) 75413.4%
По ключевым словам (расширенный метод) 1 69130.1%
Анализ полученных оценок:

Оценка по EC-полю (13.4%) занижена, так как многие ферменты, особенно у малоизученных организмов, не имеют EC-номера. Оценка по ключевым словам (30.1%) может быть ближе к реальной доле ферментов, так как учитывает белки, аннотированные как ферменты на основе гомологии. Таким образом, истинная доля ферментов в протеоме Euzebya pacifica находится между 13.4% и 30.1%.

Файл для проверки: ~/term2/pr8/UP000264006.swiss.gz

← Назад к списку работ