Обзор протеома бактерии Bartonella krasnovii

Поиск референсного протеома

Протеом штамма OE 1-1, который мы анализировали до этого имеет:
Идентификатор геномной сборки в RefSeq: GCF_003606345.3 (версия 3 является последней на данный момент)
Идентификатор INSDC (GenBank/ENA/DDBJ): GCA_003606345.3
протеом Bartonella krasnovii в базе Datasets Genome NCBI

Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_003606345.3) выдал один результат - UP000321311 статуса "Other proteome"

ссылка на протеом Bartonella krasnovii в UniProt

В описании Bartonella krasnovii написано, что её протеом является частью панпротеома Bartonella bovis 91-4 , который включает 1267 последовательностей белков. На страницу протеома Bartonella bovis 91-4 можно перейти либо со страницы Bartonella krasnovii, либо поискать через поиск Proteoms (BUSCO указан чтобы получить полные и качественные геномные сборки):
(taxonomy_id:773) AND (busco:[95 TO *]) AND (proteome_type:1) AND (cpd:3).
Скачаем его с помощью команды:

 wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000014038%29%29' -O UP000014038.swiss.gz
ссылка на протеом Bartonella bovis 91-4
ID протеома UP000014038
Название вида и штамма Bartonella bovis 91-4 | 91-4
ID таксона 1094491
Количество белков 1267
CPD Close to standard (low value)

Ищем и считаем ферменты

Вбив в поиск UniProtKB ID нашей референсной бактерии получим 1 267 результатов поиска белков - (proteome:UP000014038).

Оценим количество ферментов

Усреднив значения, можем сказать, что примерно треть протеома это ферменты

3D-структура и достоверность

Немного удивительно, но ни один белок не проверен куратором и не указана 3D структура. По запросам UniProtKB (proteome:UP000014038) AND (structure_3d:true) и (proteome:UP000014038) AND (reviewed:true) 0 результатов.
Поиск в bash дал аналогичный ответ:

zgrep 'KW' UP000014038.swiss.gz|grep -i '3D-structure'| wc -l

Тогда посмотрим на основании чего установлена последовательность:

zgrep '^PE' UP000014038.swiss.gz | grep -c 'Inferred from homology'
zgrep '^PE' UP000014038.swiss.gz | grep -c 'Predicted'
zgrep '^PE' UP000014038.swiss.gz | grep -v -e 'Predicted' -e 'Inferred from homology' | wc -l 
777 структуры установлены на основе гомологии, 488 предсказаны, о двух получены доказательства на уровне транскрипта. Это фермент Lon protease и шаперон Chaperone protein DnaK.

Ищем белок системы секреции

В практикуме 7 мы анализировали белок системы секреции 4. Она является средством для приспособления штаммов к условиям среды и повышению вирулентности:

zgrep '^DE' UP000014038.swiss.gz | grep 'secretion system'| less
Нашёлся белок под названием "Type III secretion system HrpE domain-containing protein". Не совсем тот, но входит в комплекс, выполняющий схожие функции. Белки этих систем ответственны за бактериальную конъюгацию и экзоцитоз холероподобных токсинов. Филогении указывают на недавний перенос семи генов в кластере генов virB для системы секреции типа IV от адаптированного к кошкам B. henselae к адаптированному к собакам штамму B. vinsonii [1]. Так что возможно, наш штамм Bartonella krasnovii получил этот белок тоже в результате горизонтального переноса.

Анализ на токсины

Если есть системы секреции, которые обеспечивают экзоцитоз токсинов, то должны быть и сами токсины:

 zgrep '^DE' UP000014038.swiss.gz | grep -i 'toxin' | less
Мы нашли 7 токсинов:
Addiction module toxin, RelE/StbE family
CtxA-like, cholera toxin A subunit
BrnT family toxin
BrnT family toxin
BrnT family toxin
CtxA-like, cholera toxin A subunit
Toxin HicA

А такой конвейер позволит нам увидеть часть записи про каждый найденный токсин:

 zgrep -i -C 5 '^DE.*toxin' UP000014038.swiss.gz | less
текстовая выдача конвейера

Три версии BrnT family toxin отличаются графой GN, то есть gene name. Здесь отличаюся разные идентификаторы Open Reading Frame name у трёх вариантов, то есть они были получены с трёх разных рамок считывания: ORFNames=BBbe_08180 , ORFNames=BBbe_02110 , ORFNames=BBbe_02230
CtxA-like, cholera toxin A subunit также продублирован в двух версиях - ORFNames=BBbe_11280 и ORFNames=BBbe_11300

Можно сделать несколько предположений, для чего белки продублированы:
1. Это необходимо для повышения эффективности интоксикации
2. Белок с одним и тем же названием, но из разных генов проходит различные посттрансляционные модификации
3. Белки с одним и тем же названием, но из разных генов имеют различную последовательность на каком-то участке
4. Это результат мутации
5. Вероятно, две копии токсина BrnT family находятся недалеко друг от друга в ДНК и хранятся как резервные копии