Практикум 8

UniProt Proteomes - протеом Natronococcus occultus SP4

Поиск протеома

В ходе практикума был найден протеом, соответствующий сборке археи Natronococcus occultus SP4. Поиск проводился в базе NCBI Datasets Genome по идентификатору сборки без версии - с целью определить актуальную запись. Страница сборки: GCF_000328685.1. Далее по полю Genome Assembly был выполнен поиск в UniProt Proteomes.

Поисковый запрос: genome_assembly:GCA_000328685.1

В результате был найден протеом с идентификатором UP000010878 со статусом reference.

Референсный протеом

Референсный протеом был выбран с помощью поскового запроса:

taxonomy_id: 694430 AND proteome_type:reference

Искомым протеомом оказался изначальный с идентификатором UP000010878. После данных процедур был сформирован запрос к UniProtKB и выполнено скачивание данных через REST API:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000010878' -O UP000010878.swiss.gz

Альфа-спирали и трансмембранные участки

Для оценки числа белков с альфа-спиралями и трансмембранными участками анализировалось поле FT, подсчет выполнялся с помощью bash-конвейера. Для альфа-спиралей не было найдено ни одного совпадения по конвейеру:

zgrep -E 'FT HELIX|//' UP000010878.swiss.gz | grep -B1 'FT HELIX' | grep '//' | wc -l

Для трансмембранных участков было найдено 891 совпадение по конвейеру:

zgrep -E 'FT TRANSMEM|//' UP000010878.swiss.gz | grep -B1 'FT TRANSMEM' | grep '//' | wc -l

Выяснилось, что белков с трансмембранными участками существенно больше, чем с альфа-спиралями, что несколько противоречит привычному соотношению подобных белков, так как в природе альфа-спирали встречаются значительно чаще. Но различия объясняются неполнотой аннотаций, а также тем, что часть белков с альфа-спиралями может не иметь соответствующего ключа HELIX.

Оценка числа ферментов

Для оценки количества ферментов использовалось два два поисковых запросов на базе UniProt.

По EC-номеру по представленному далее запросу было найдено 633 совпадения.
proteome:UP000010878 AND ec:*
По аннотации каталитической активности было получено 462 результата - меньше, чем по первому.
proteome:UP000010878 AND cc_catalytic_activity:*

Эти значения различаются, так как аннотации могут быть неполными, и некторые из выданных значений начиаться на "ес" и при этом не обладать каталитической активностью. Поэтому более точным значением является выданное по второму запросу.