Практикум 8.

1. Поиск протеома, соответствующего геномной сборке

В мини-обзоре для бактерии Rossellomorea marisflavi использовалась геномная сборка RefSeq GCF_009806575.1 На сайте на сайте NCBI по запросу GCF_009806575 были получены идентификаторы последней версии сборки: RefSeq: GCF_009806575.1 и INSDC (GenBank): GCA_000195795.1.
Информация о данной сборке получена со страницы базы NCBI Datasets Genome.

При поиске протеома в UniProt Proteomes был использован запрос (genome_assembly:GCA_009806575.1) и получен один результат: протеом с ID: UP000429637; статус которого - "Исключен (отложен для дальнейшего анализа)" (протеом исключен из базы данных UniProtKB, как один из протеомов, "сборка которых была исключена из проекта NCBI Reference Sequence (RefSeq)").

2. Поиск и скачивание референсного протеома

По запросу (taxonomy_id:189381) AND (proteome_type:1) для данного вида был получен один референсный протеом: ID UP000037405 (штамм JCM 11544).
Скачивание белковых записей, принадлежащих одному протеому было сделано с помощью команды curl
'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000037405)' > UP000037405.swiss.gz.

3. Оценка числа белков, содержащих альфа-спирали

Средствами bash было посчитано количество записей о белках, содержащих 1) альфа-спирали и 2) трансмембранные участки.

1) команда bash:

zcat UP000037405.swiss.gz | grep -E '^(FT   HELIX|ID)' | grep -B1 '^FT   HELIX' | grep '^ID' | sort -u | wc -l

Результат: 0 записей о белках, содержащих альфа-спирали

2) команда bash:

zcat UP000037405.swiss.gz | grep -E '^(FT   TRANSMEM|ID)' | grep -B1 '^FT   TRANSMEM' | grep '^ID' | sort -u | wc -l

Результат: 961 белок, имеющий трансмембранные участки

Чаще всего трансмембранные участки являются альфа-спиралями - однако результаты не удовлетворяют данной закономерности, что говорит об их вероятной неточности. Ожидаемо было бы получить количество белков с альфа-спиралями большим или равным количеству белков с трансмембранными участками.
Возможно, такие результаты связаны с тем, что ключ HELIX присваивается при наличии подтверждающих экспериментальных данных, в отличие от ключа TRANSMEM, который вносится на основе автоматических предсказаний. Кроме того, возможно, мало изученные белки могут иметь только пометку о наличии трансмембранных участков, хотя альфа-спирали, вероятно, также присутствуют.

4. Оценка количества ферментов в протеоме

Для оценки количества ферментов в референсном протеоме (ID: UP000037405) было использовано несколько методов.

Первый - несколько поисковых запросов по базе UniProtKB. По запросу (proteome:UP000037405) AND (ec:*) получено 833 результата (все находятся в TrEMBL) - любые белки с ферментативной активностью. По запросу (proteome:UP000037405) AND (cc_catalytic_activity:*) найдено 722 записи (все находятся в TrEMBL), которые описывают катализируемые реакции. Разница оценок, возможно, связана с тем, что часть записей может иметь только EC-код или только блок 'CATALYTIC ACTIVITY' в поле CC (а не оба параметра одновременно).

Второй - средствами bash. С помощью команды

zgrep '^DE' UP000037405.swiss.gz | grep -c 'EC='
обнаружено, что ферментативной активностью обладают 855 белков. Однако, если у фермента несколько функций, то в файле UP000037405.swiss.gz белок может быть учтен несколько раз. Для того, чтобы посчитать именно количество записей, была применена команда bash
zcat UP000037405.swiss.gz | grep -E '^(//|DE.*EC=)' | grep -B1  'EC=' | grep -c '^//'
и получен результат: 818 записей.