Поиск протеома
В ходе практикума был найден протеом, соответствующий сборке археи Natronococcus occultus SP4. Поиск проводился в базе NCBI Datasets Genome по идентификатору сборки без версии - с целью определить актуальную запись. Страница сборки: GCF_000328685.1. Идентификатор геномной сборки в INSDC имел вид GCA_000328685.1, в RefSeq - GCF_000328685.1. Далее по полю Genome Assembly был выполнен поиск в UniProt Proteomes.
genome_assembly:GCA_000328685.1
В результате был найден протеом с идентификатором UP000010878 со статусом reference.
Референсный протеом
Референсный протеом был выбран с помощью поскового запроса:
taxonomy_id: 694430 AND proteome_type:1Искомым протеомом оказался изначальный с идентификатором UP000010878. После данных процедур был сформирован запрос к UniProtKB и выполнено скачивание данных через REST API:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000010878' -O UP000010878.swiss.gz
Альфа-спирали и трансмембранные участки
Для оценки числа белков с альфа-спиралями и трансмембранными участками анализировалось поле FT, подсчет выполнялся с помощью bash-конвейера. Для альфа-спиралей не было найдено ни одного совпадения по конвейеру:
zcat UP000010878.swiss.gz | grep -E '^(FT HELIX|ID)' | grep -B1 '^FT HELIX' | grep '^ID' | sort -u | wc -l
Для белков, содержащих трансмембранных участков, было найдено 891 совпадение по конвейеру:
zcat UP000010878.swiss.gz | grep -E '^(FT TRANSMEM|ID)' | grep -B1 '^FT TRANSMEM' | grep '^ID' | sort -u | wc -l
Выяснилось, что белков с альфа-спиралями в протеоме нет, что вряд ли соответствует действительности; белков с трансмембранными участками найдено 891. Отсутствие альфа-спиралей может быть связано с тем, что их наличие с точностью можно установить на основании экспериментальных данных, которых, вероятно, не хватает. Трансмембранные участки свидетельствуют о расположении белка, указывая информацию более стоящую, чем детали вторичной структуры, поэтому и указанные в протеоме.
Оценка числа ферментов
Для оценки количества ферментов использовалось два поисковых запросов на базе UniProt.
proteome:UP000010878 AND ec:*
proteome:UP000010878 AND cc_catalytic_activity:*
Эти значения различаются, так как аннотации могут быть неполными, при этом при поиске по обоим запросам не учитываются белки с неуказанной каталитической активностью. Также оба запроса могут игнорировать белки с основной функцией, не связанной с катализом, но проявляющие ферментативную активность. Выходит, что были учтены не все белки, так что ни один из вариантов нельзя с точностью назвать достоверным.