Поиск протеома для моей бактерии и работа с ним.
В этом практикуме нам нужно было воспользоваться UniProt, чтобы найти протеом для выбранной в первом семестре бактерии, а также исследовать его некоторыми инструментами.
В начале прошлого семестра я выбрал бактерию Neptuniibacter halophilus, геномную сборку которой можной найти здесь.
Также, эта сборка есть в:
Попытка найти протеом для конкретной версии сборки не дала результатов.
UniProt Proteomes:
(genome_assembly:GCA_030295765.1)
Попытка найти протеом для сборки без версии также не дала результатов.
UniProt Proteomes:
(genome_assembly:GCA_030295765)
Протеома для конкретной геномной сборки бактерии пока что нет в UniProt Proteomes по той или иной причине.
Поскольку поиск по геномной сборке для моей бактерии не выдал результатов в виде референсного протеома, я пошёл вверх по систематике в поисках наиболее близкого представителя, для которого есть референсный протеом.
Попытка найти референсные протеомы для вида Neptuniibacter halophilus не дала результатов.
UniProt Proteomes
(taxonomy_id:651666) AND (proteome_type:1)
Попытка найти референсные протеомы для рода Neptuniibacter выдала 2 результата.
UniProt Proteomes:
(taxonomy_id:459520) AND (proteome_type:1)
Эти результаты - протеомы:
Они не драматически различались по размеру и составу, поэтому я решил найти дополнительную информацию по теме.
Из этих результатов решено было выбрать референсный протеом Neptuniibacter caesariensis, потому что он содержит больше белков и по размеру генома ближе к N. halophilus.[1]
Сначала я составил поисковый запрос. (при помощи кнопки Download в интерфейсе UniProtKB)
UniProtKB: https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000002171%29%29
На всякий случай проверил соответствие с URL в инструкции.
Потом произошёл wget. Я скачал референсный протеом (UP000002171).
Bash:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000002171%29%29' -O UP000002171.swiss.gz
Дальше я составил конвейер для поиска количества белков, содержащих спирали (по подсказке в домашке это метка 'HELIX')
Bash:
zgrep -e '^//' -e 'HELIX' -e 'TRANSMEM' UP000002171.swiss.gz | grep -e '^FT' -e '^//' | uniq | head -n -1 | grep '^//' | wc -l
Я получил 781 результат.
Поэтому я решил проверить, сколько и каких результатов я получил.
Bash:
zgrep -e '^//' -e 'HELIX' UP000002171.swiss.gz | grep -e '^FT' -e '^//' | uniq | head -n -1 | grep '^//' | wc -l
По ключу 'HELIX' я получил 0 результатов. Это связано с тем, что он ставится только для экспериментально определённых структур.
Для ключа 'TRANSMEM'.
Bash:
zgrep -e '^//' -e 'TRANSMEM' UP000002171.swiss.gz | grep -e '^FT' -e '^//' | uniq | head -n -1 | grep '^//' | wc -l
Он нашёл 781 белок. Это значит, что протеом аннотирован, но экспериментальных результатов для спиралей нет.
Дальше по тексту практикума нас просили попробовать оценить количество белков, обладающих каталитической активностью.
Для нескольких (всех) запросов пришлось посмотреть в подсказки.
Сначала я решил проверить белки, у которых описан класс фермента (EC).
UniProtKB:
(proteome:UP000002171) AND (ec:*)
Я получил 918 результатов. Как оказалось, это самый быстрый и адекватный результат для поиска энзимов.
Далее я решил проверить по полю cc_catalytic_activity, но с любым доказательством.
UniProtKB:
(proteome:UP000002171) AND (cc_catalytic_activity:*)
И на этот раз получил 787 результатов. Значительно меньше, чем по первому запросу.
На всякий случай решил проверить всё по ключевому слову "Hydrolase"
UniProtKB:/p>
(proteome:UP000002171) AND (keyword:KW-0378)
298 результатов. Этот запрос гораздо более специфичен и подходит только для гидролаз.
Я решил проверить, насколько поиск по ключевому слову совпадает с аннотацией класса фермента. Например, для гидролаз.
UniProtKB:
(proteome:UP000002171) AND (keyword:KW-0378) NOT (ec:3)
На удивление, 146 результатов. То есть, поле CC не всегда несёт те же данные, что KW.
Потом я случайно перепутал поля местами.
UniProtKB:
(proteome:UP000002171) AND (ec:3) NOT (keyword:KW-0378)
Тут я получил 26 результатов. То есть, есть такие ферменты, которые не аннотированы как минимум по одному из этих двух полей. Но не аннотированных по KW оказалось меньше.
На всякий случай я решил проверить, есть ли белки с экспериментально подтверждённой каталитической активностью.
UniProtKB:
(proteome:UP000002171) AND (cc_catalytic_activity_exp:*)
Такой оказался один. Sulfoacetaldehyde dehydrogenase, safD, у Neptuniibacter caesariensis.
Возможно, точнее будет составить список из запросов по KW через AND, поскольку как минимум для гидролаз это оказалось более эффективной стратегией. Но пока что у меня нет на это времени.