1. Поиск протеома, соответствующего геномной сборке
В мини-обзоре для бактерии Rossellomorea marisflavi использовалась геномная сборка RefSeq GCF_009806575.1
На сайте на сайте NCBI по запросу GCF_009806575 были получены идентификаторы последней версии сборки: RefSeq: GCF_009806575.1 и INSDC (GenBank): GCA_000195795.1.
Информация о данной сборке получена со страницы базы NCBI Datasets Genome.
При поиске протеома в UniProt Proteomes был использован запрос (genome_assembly:GCA_009806575.1) и получен один результат: протеом с ID: UP000429637; статус которого - "Исключен (отложен для дальнейшего анализа)" (протеом исключен из базы данных UniProtKB, как один из протеомов, "сборка которых была исключена из проекта NCBI Reference Sequence (RefSeq)").
2. Поиск и скачивание референсного протеома
По запросу (taxonomy_id:189381) AND (proteome_type:1) для данного вида был получен один референсный протеом: ID UP000037405 (штамм JCM 11544).
Скачивание белковых записей, принадлежащих одному протеому было сделано с помощью команды curl
'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000037405)' > UP000037405.swiss.gz.
3. Оценка числа белков, содержащих альфа-спирали
Средствами bash было посчитано количество записей о белках, содержащих 1) альфа-спирали и 2) трансмембранные участки.
1) команда bash:
zcat UP000037405.swiss.gz | grep -E '^(FT HELIX|ID)' | grep -B1 '^FT HELIX' | grep '^ID' | sort -u | wc -l
2) команда bash:
zcat UP000037405.swiss.gz | grep -E '^(FT TRANSMEM|ID)' | grep -B1 '^FT TRANSMEM' | grep '^ID' | sort -u | wc -l
Чаще всего трансмембранные участки являются альфа-спиралями - однако результаты не удовлетворяют данной закономерности, что говорит об их вероятной неточности.
Ожидаемо было бы получить количество белков с альфа-спиралями большим или равным количеству белков с трансмембранными участками.
Возможно, такие результаты связаны с тем, что ключ HELIX присваивается при наличии подтверждающих экспериментальных данных, в отличие от ключа TRANSMEM, который вносится на основе автоматических предсказаний.
Кроме того, возможно, мало изученные белки могут иметь только пометку о наличии трансмембранных участков, хотя альфа-спирали, вероятно, также присутствуют.
4. Оценка количества ферментов в протеоме
Для оценки количества ферментов в референсном протеоме (ID: UP000037405) было использовано несколько методов.
Первый - несколько поисковых запросов по базе UniProtKB. По запросу (proteome:UP000037405) AND (ec:*) получено 833 результата (все находятся в TrEMBL) - любые белки с ферментативной активностью. По запросу (proteome:UP000037405) AND (cc_catalytic_activity:*) найдено 722 записи (все находятся в TrEMBL), которые описывают катализируемые реакции. Разница оценок, возможно, связана с тем, что часть записей может иметь только EC-код или только блок 'CATALYTIC ACTIVITY' в поле CC (а не оба параметра одновременно).
Второй - средствами bash. С помощью команды
zgrep '^DE' UP000037405.swiss.gz | grep -c 'EC='обнаружено, что ферментативной активностью обладают 855 белков. Однако, если у фермента несколько функций, то в файле UP000037405.swiss.gz белок может быть учтен несколько раз. Для того, чтобы посчитать именно количество записей, была применена команда bash zcat UP000037405.swiss.gz | grep -E '^(//|DE.*EC=)' | grep -B1 'EC=' | grep -c '^//' и получен результат: 818 записей.