Практикум 8

Поиск протеома для моей бактерии и работа с ним.

В этом практикуме нам нужно было воспользоваться UniProt, чтобы найти протеом для выбранной в первом семестре бактерии, а также исследовать его некоторыми инструментами.

Поиск протеома, соответствующего геномной сборке

В начале прошлого семестра я выбрал бактерию Neptuniibacter halophilus, геномную сборку которой можной найти здесь.

Также, эта сборка есть в:

Тогда как в UniProt протеома для этой сборки нет. Это я понял из следующих далее запросов к UniProt Proteomes.

Запросы:

  1. Попытка найти протеом для конкретной версии сборки не дала результатов.

    UniProt Proteomes:

    (genome_assembly:GCA_030295765.1)

  2. Попытка найти протеом для сборки без версии также не дала результатов.

    UniProt Proteomes:

    (genome_assembly:GCA_030295765)

Протеома для конкретной геномной сборки бактерии пока что нет в UniProt Proteomes по той или иной причине.

Поиск и скачивание референсного протеома

Поскольку поиск по геномной сборке для моей бактерии не выдал результатов в виде референсного протеома, я пошёл вверх по систематике в поисках наиболее близкого представителя, для которого есть референсный протеом.

  1. Попытка найти референсные протеомы для вида Neptuniibacter halophilus не дала результатов.

    UniProt Proteomes

    (taxonomy_id:651666) AND (proteome_type:1)

  2. Попытка найти референсные протеомы для рода Neptuniibacter выдала 2 результата.

    UniProt Proteomes:

    (taxonomy_id:459520) AND (proteome_type:1)

Эти результаты - протеомы:

Они не драматически различались по размеру и составу, поэтому я решил найти дополнительную информацию по теме.

Из этих результатов решено было выбрать референсный протеом Neptuniibacter caesariensis, потому что он содержит больше белков и по размеру генома ближе к N. halophilus.[1]

Работа с референсным протеомом

  1. Сначала я составил поисковый запрос. (при помощи кнопки Download в интерфейсе UniProtKB)

    UniProtKB:

    https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000002171%29%29

    На всякий случай проверил соответствие с URL в инструкции.

  2. Потом произошёл wget. Я скачал референсный протеом (UP000002171).

    Bash:

    wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000002171%29%29' -O UP000002171.swiss.gz

  3. Дальше я составил конвейер для поиска количества белков, содержащих спирали (по подсказке в домашке это метка 'HELIX')

    Bash:

    zgrep -e '^//' -e 'HELIX' -e 'TRANSMEM' UP000002171.swiss.gz | grep -e '^FT' -e '^//' | uniq | head -n -1 | grep '^//' | wc -l

    Я получил 781 результат.

  4. Поэтому я решил проверить, сколько и каких результатов я получил.

    Bash:

    zgrep -e '^//' -e 'HELIX' UP000002171.swiss.gz | grep -e '^FT' -e '^//' | uniq | head -n -1 | grep '^//' | wc -l

  5. По ключу 'HELIX' я получил 0 результатов. Это связано с тем, что он ставится только для экспериментально определённых структур.

  6. Для ключа 'TRANSMEM'.

    Bash:

    zgrep -e '^//' -e 'TRANSMEM' UP000002171.swiss.gz | grep -e '^FT' -e '^//' | uniq | head -n -1 | grep '^//' | wc -l

    Он нашёл 781 белок. Это значит, что протеом аннотирован, но экспериментальных результатов для спиралей нет.

Оценка количества ферментов в протеоме

Дальше по тексту практикума нас просили попробовать оценить количество белков, обладающих каталитической активностью.

Для нескольких (всех) запросов пришлось посмотреть в подсказки.

  1. Сначала я решил проверить белки, у которых описан класс фермента (EC).

    UniProtKB:

    (proteome:UP000002171) AND (ec:*)

    Я получил 918 результатов. Как оказалось, это самый быстрый и адекватный результат для поиска энзимов.

  2. Далее я решил проверить по полю cc_catalytic_activity, но с любым доказательством.

    UniProtKB:

    (proteome:UP000002171) AND (cc_catalytic_activity:*)

    И на этот раз получил 787 результатов. Значительно меньше, чем по первому запросу.

  3. На всякий случай решил проверить всё по ключевому слову "Hydrolase"

    UniProtKB:/p>

    (proteome:UP000002171) AND (keyword:KW-0378)

    298 результатов. Этот запрос гораздо более специфичен и подходит только для гидролаз.

  4. Я решил проверить, насколько поиск по ключевому слову совпадает с аннотацией класса фермента. Например, для гидролаз.

    UniProtKB:

    (proteome:UP000002171) AND (keyword:KW-0378) NOT (ec:3)

    На удивление, 146 результатов. То есть, поле CC не всегда несёт те же данные, что KW.

  5. Потом я случайно перепутал поля местами.

    UniProtKB:

    (proteome:UP000002171) AND (ec:3) NOT (keyword:KW-0378)

    Тут я получил 26 результатов. То есть, есть такие ферменты, которые не аннотированы как минимум по одному из этих двух полей. Но не аннотированных по KW оказалось меньше.

  6. На всякий случай я решил проверить, есть ли белки с экспериментально подтверждённой каталитической активностью.

    UniProtKB:

    (proteome:UP000002171) AND (cc_catalytic_activity_exp:*)

    Такой оказался один. Sulfoacetaldehyde dehydrogenase, safD, у Neptuniibacter caesariensis.

Возможно, точнее будет составить список из запросов по KW через AND, поскольку как минимум для гидролаз это оказалось более эффективной стратегией. Но пока что у меня нет на это времени.

Источники:

  1. Kudo, Rika et al. “Genome taxonomy of the genus Neptuniibacter and proposal of Neptuniibacter victor sp. nov. isolated from sea cucumber larvae.” PloS one vol. 18,8 e0290060. 15 Aug. 2023, doi:10.1371/journal.pone.0290060 - дата обращения 04.05.2026