Работа с протеомом Silvanigrella aquatica

Поиск протеома, соответствующего геномной сборке

В предыдущем семестре для работы над мини-обзором, посвященным бактерии Silvanigrella aquatica, я использовала геномную сборку NCBI RefSeq GCF_001907975.1 (страница данной сборки в базе NCBI Datasets Genome).

Идентификаторы последней версии сборки:

  1. RefSeq: GCF_001907975.1
  2. INSDC (GenBank): GCA_001907975.2

Для выполнения данного практикума далее требовалось найти протеом, соответствующий указанной геномной сборке. С этой целью был выполнен поисковый запрос по базе UniProt Proteomes:

(genome_assembly:GCA_001907975.2)

Запрос вернул протеом UP000184731, имеющий статус референсного (reference proteome).

Поиск и скачивание референсного протеома

Поскольку в предыдущем пункте найденный мною протеом UP000184731 уже имел статус референсного, требовалось подтвердить, что он действительно является таковым для вида Silvanigrella aquatica. Для этого необходимо было вновь обратиться к поиску по базе UniProt Proteomes, но на этот раз с использованием TaxID и фильтра по статусу протеома:

(taxonomy_id:1915309) AND (proteome_type:1)

Результат подтвердил, что протеом UP000184731 действительно является референсным для данного вида. В связи с чем все дальнейшие задания выполнялись с его использованием.

Для скачивания белковых записей, принадлежащих данному протеому была выполнена команда:

curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome: UP000184731)' > UP000184731.swiss.gz

Оценка числа белков, содержащих альфа-спирали

Целью данного пункта было определение числа белковых записей в скачанном протеоме, содержащих некоторые структурные особенности — альфа-спирали и трансмембранные участки. Оба признака находятся в поле FT (Feature table) записей формата swiss. Для подсчёта были использованы следующие конвейеры bash:

  1. Записи, содержащие трансмембранные участки (ключ TRANSMEM)
  2. zcat UP000184731.swiss.gz | grep -e '^//' -e '^FT   TRANSMEM' | grep -A1 'TRANSMEM' | grep '//$' | wc -l

    Результат: 590

  3. Записи, содержащие альфа-спирали (ключ HELIX)
  4. zcat UP000184731.swiss.gz | grep -e '^//' -e '^FT   HELIX' | grep -A1 'HELIX' | grep '//$' | wc -l

    Результат: 0

  5. Общее число белковых записей в протеоме
  6. zcat UP000184731.swiss.gz | grep '^//' | wc -l

    Результат: 2865

Из полученных результатов видно, что 590 белков содержат трансмембранные регионы. Это составляет примерно 20% от всех белковых записей в протеоме. Такую оценку можно назвать удачной, поскольку исследования указывают именно на такую долю трансмембранных белков у бактерий [1].

Что касается альфа-спиралей, полученный результат (0) далёк от реальности. Однако это можно объяснить особенностями получения этих двух ключей аннотации. Ключ TRANSMEM аннотируется на основе компьютерных предсказательных алгоритмов, применённых к аминокислотным последовательностям [2], тогда как ключ HELIX — это аннотация вторичной структуры, которая берётся из экспериментально определённых трёхмерных структур [3].

На сегодняшний день ни для одного белка Silvanigrella aquatica не определена экспериментальная пространственная структура с достаточным разрешением, чтобы её можно было использовать для аннотации в UniProtKB, что вполне естественно для немодельного прокариотического организма. Этим и объясняется полное отсутствие ключей HELIX в записях данного протеома

Оценка количества ферментов в протеоме

Далее, используя поисковые запросы в базе UniProtKB, нужно было оценить количество белков в протеоме UP000184731, обладающих ферментативной активностью.

Для этого были выполнены несколько запросов по разным полям:

  1. Поиск по наличию EC-кода:
  2. (proteome:UP000184731) AND (ec:*)

    Результат: 502

  3. Поиск по наличию суффикса «ase» в названии белка:
  4. (proteome:UP000184731) AND (protein_name:*ase)

    Результат: 1 161

  5. Поиск по наличию блока 'CATALYTIC ACTIVITY' в поле CC:
  6. (proteome:UP000184731) AND (cc_catalytic_activity:*)

    Результат: 446

Анализируя полученные данные, можно, во-первых, заметить сильно выпадающий результат (1 161). Поскольку он показывает число белков, содержащих в названии суффикс «ase», что изначально является крайне неспецифичным признаком, при этом неспособным учитывать все ферменты, данному значению нельзя доверять.

Два других результата (502 и 446) оказываются намного ближе друг к другу и, вероятно, ближе к реальности, однако полностью доверять им тоже не стоит. Оценка по полю cc_catalytic_activity скорее всего учитывает не все ферменты, так как этот блок появляется в основном у белков с подтверждённой или хорошо предсказанной каталитической активностью. Оценка по наличию EC-кодов, напротив, может быть более широкой, но тоже не гарантирует полноты, поскольку некоторые ферменты могут не иметь присвоенного EC-кода.

Список литературы