Обзор протеома бактерии Bartonella krasnovii
Поиск референсного протеома
Протеом штамма OE 1-1, который мы анализировали до этого имеет: Идентификатор геномной сборки в RefSeq: GCF_003606345.3 (версия 3 является последней на данный момент) Идентификатор INSDC (GenBank/ENA/DDBJ): GCA_003606345.3 протеом Bartonella krasnovii в базе Datasets Genome NCBI
Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_003606345.3) выдал один результат - UP000321311 статуса "Other proteome"
ссылка на протеом Bartonella krasnovii в UniProt
В описании Bartonella krasnovii написано, что её протеом является частью панпротеома Bartonella bovis 91-4 , который включает 1267 последовательностей белков. На страницу протеома Bartonella bovis 91-4 можно перейти либо со страницы Bartonella krasnovii, либо поискать через поиск Proteoms (BUSCO указан чтобы получить полные и качественные геномные сборки): (taxonomy_id:773) AND (busco:[95 TO *]) AND (proteome_type:1) AND (cpd:3). Скачаем его с помощью команды:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000014038%29%29' -O UP000014038.swiss.gzссылка на протеом Bartonella bovis 91-4
ID протеома | UP000014038 |
---|---|
Название вида и штамма | Bartonella bovis 91-4 | 91-4 |
ID таксона | 1094491 |
Количество белков | 1267 |
CPD | Close to standard (low value) |
Ищем и считаем ферменты
Вбив в поиск UniProtKB ID нашей референсной бактерии получим 1 267 результатов поиска белков - (proteome:UP000014038).
Оценим количество ферментов
- Можем грубо оценить количество ферментов с помощью такого конвейера:
zcat UP000014038.swiss.gz| grep '^DE'|grep -i 'ase'|wc -lПолучилось 1172. Выглядит неразумно.
zgrep '^CC' UP000014038.swiss.gz | grep -c 'CATALYTIC ACTIVITY'Получилось 432, ~34% протеома. Это не очень правдиво, т.к. в описании одного и того же фермента может быть несколько раз упомянута каталитическая активность.
zcat UP000014038.swiss.gz| grep '^DE'| grep -c 'EC='403 результата ~32% протеома. Уже лучше, но явно не точно, т.к. у одного и того же фермента может быть несколько раз указан EC, например:
DE RecName: Full=Carbamoyl phosphate synthase large chain {ECO:0000256|HAMAP-Rule:MF_01210};
DE EC=6.3.4.16 {ECO:0000256|HAMAP-Rule:MF_01210};
DE EC=6.3.5.5 {ECO:0000256|HAMAP-Rule:MF_01210};
Получили 393 белка из 7 классов ферментов, ~31% протеома.
Усреднив значения, можем сказать, что примерно треть протеома это ферменты
3D-структура и достоверность
Немного удивительно, но ни один белок не проверен куратором и не указана 3D структура. По запросам UniProtKB (proteome:UP000014038) AND (structure_3d:true) и (proteome:UP000014038) AND (reviewed:true) 0 результатов. Поиск в bash дал аналогичный ответ:
zgrep 'KW' UP000014038.swiss.gz|grep -i '3D-structure'| wc -l
Тогда посмотрим на основании чего установлена последовательность:
zgrep '^PE' UP000014038.swiss.gz | grep -c 'Inferred from homology'
zgrep '^PE' UP000014038.swiss.gz | grep -c 'Predicted'
zgrep '^PE' UP000014038.swiss.gz | grep -v -e 'Predicted' -e 'Inferred from homology' | wc -l777 структуры установлены на основе гомологии, 488 предсказаны, о двух получены доказательства на уровне транскрипта. Это фермент Lon protease и шаперон Chaperone protein DnaK.
Ищем белок системы секреции
В практикуме 7 мы анализировали белок системы секреции 4. Она является средством для приспособления штаммов к условиям среды и повышению вирулентности:
zgrep '^DE' UP000014038.swiss.gz | grep 'secretion system'| lessНашёлся белок под названием "Type III secretion system HrpE domain-containing protein". Не совсем тот, но входит в комплекс, выполняющий схожие функции. Белки этих систем ответственны за бактериальную конъюгацию и экзоцитоз холероподобных токсинов. Филогении указывают на недавний перенос семи генов в кластере генов virB для системы секреции типа IV от адаптированного к кошкам B. henselae к адаптированному к собакам штамму B. vinsonii [1]. Так что возможно, наш штамм Bartonella krasnovii получил этот белок тоже в результате горизонтального переноса.
Анализ на токсины
Если есть системы секреции, которые обеспечивают экзоцитоз токсинов, то должны быть и сами токсины:
zgrep '^DE' UP000014038.swiss.gz | grep -i 'toxin' | lessМы нашли 7 токсинов:
А такой конвейер позволит нам увидеть часть записи про каждый найденный токсин:
zgrep -i -C 5 '^DE.*toxin' UP000014038.swiss.gz | lessтекстовая выдача конвейера
Три версии BrnT family toxin отличаются графой GN, то есть gene name. Здесь отличаюся разные идентификаторы Open Reading Frame name у трёх вариантов, то есть они были получены с трёх разных рамок считывания: ORFNames=BBbe_08180 , ORFNames=BBbe_02110 , ORFNames=BBbe_02230 CtxA-like, cholera toxin A subunit также продублирован в двух версиях - ORFNames=BBbe_11280 и ORFNames=BBbe_11300
Можно сделать несколько предположений, для чего белки продублированы: 1. Это необходимо для повышения эффективности интоксикации 2. Белок с одним и тем же названием, но из разных генов проходит различные посттрансляционные модификации 3. Белки с одним и тем же названием, но из разных генов имеют различную последовательность на каком-то участке 4. Это результат мутации 5. Вероятно, две копии токсина BrnT family находятся недалеко друг от друга в ДНК и хранятся как резервные копии