Практикум 8

UniProt Proteomes - протеом Natronococcus occultus SP4

Поиск протеома

В ходе практикума был найден протеом, соответствующий сборке археи Natronococcus occultus SP4. Поиск проводился в базе NCBI Datasets Genome по идентификатору сборки без версии - с целью определить актуальную запись. Страница сборки: GCF_000328685.1. Идентификатор геномной сборки в INSDC имел вид GCA_000328685.1, в RefSeq - GCF_000328685.1. Далее по полю Genome Assembly был выполнен поиск в UniProt Proteomes.

Поисковый запрос: genome_assembly:GCA_000328685.1

В результате был найден протеом с идентификатором UP000010878 со статусом reference.

Референсный протеом

Референсный протеом был выбран с помощью поскового запроса:

taxonomy_id: 694430 AND proteome_type:1

Искомым протеомом оказался изначальный с идентификатором UP000010878. После данных процедур был сформирован запрос к UniProtKB и выполнено скачивание данных через REST API:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000010878' -O UP000010878.swiss.gz

Альфа-спирали и трансмембранные участки

Для оценки числа белков с альфа-спиралями и трансмембранными участками анализировалось поле FT, подсчет выполнялся с помощью bash-конвейера. Для альфа-спиралей не было найдено ни одного совпадения по конвейеру:

zcat UP000010878.swiss.gz | grep -E '^(FT   HELIX|ID)' | grep -B1 '^FT   HELIX' | grep '^ID' | sort -u | wc -l

Для белков, содержащих трансмембранных участков, было найдено 891 совпадение по конвейеру:

zcat UP000010878.swiss.gz | grep -E '^(FT   TRANSMEM|ID)' | grep -B1 '^FT   TRANSMEM' | grep '^ID' | sort -u | wc -l

Выяснилось, что белков с альфа-спиралями в протеоме нет, что вряд ли соответствует действительности; белков с трансмембранными участками найдено 891. Отсутствие альфа-спиралей может быть связано с тем, что их наличие с точностью можно установить на основании экспериментальных данных, которых, вероятно, не хватает. Трансмембранные участки свидетельствуют о расположении белка, указывая информацию более стоящую, чем детали вторичной структуры, поэтому и указанные в протеоме.

Оценка числа ферментов

Для оценки количества ферментов использовалось два поисковых запросов на базе UniProt.

По EC-номеру по представленному далее запросу было найдено 633 совпадения.
proteome:UP000010878 AND ec:*
По аннотации каталитической активности было получено 462 результата - меньше, чем по первому.
proteome:UP000010878 AND cc_catalytic_activity:*

Эти значения различаются, так как аннотации могут быть неполными, при этом при поиске по обоим запросам не учитываются белки с неуказанной каталитической активностью. Также оба запроса могут игнорировать белки с основной функцией, не связанной с катализом, но проявляющие ферментативную активность. Выходит, что были учтены не все белки, так что ни один из вариантов нельзя с точностью назвать достоверным.