Идентификатор геномной сборки Leptospira borgpetersenii serovar Ceylonica в RefSeq: GCF_003516145.1
Cсылка на страницу из базы NCBI Datasets Genome: RefSeq: GCF_003516145.1
Идентификатор последней версии сборки INSDC: GCA_003516145.1
Поисковый запрос по UniProt Proteomes: GCA_003516145.1
Идентификатор протеома: UP000263483
Статус протеома: Redundant proteome
Результат один, поэтому сложностей при выборе не возникло.
Краткая информация о протеоме: он содержит 3429 белков; BUSCO C:97.9% (S:97.9% D:0%) F:0% M:2.1%
Было проведено 2 поиска:
Поисковый запрос: (taxonomy_id:174) AND (proteome_type:1)
Результаты:
Entry | Organism | Organism ID | Protein count | BUSCO SingleDuplicatedFragmentedMissing |
CPD |
---|---|---|---|---|---|
UP000011783 |
Leptospira borgpetersenii str. 200701203 (200701203) | 1193007 | 4,773 | n:239 · spirochaetia_odb10 C:85.8% (S:85.8% D:0%) F:8.4% M:5.9% |
Close to standard (high value) |
Данный поисковой запрос позволяет искать протеомы в пределах вида Leptospira borgpetersenii и c Proteome Type: Reference.
Поисковый запрос: (taxonomy_id:171) AND (proteome_type:1) AND (cpd:6)
Результаты:
Entry | Organism | Organism ID | Protein count | BUSCO SingleDuplicatedFragmentedMissing |
CPD |
---|---|---|---|---|---|
UP000245133 |
Leptospira ryugenii(YH101) | 1917863 | 3,659 | n:239 · spirochaetia_odb10 C:97.9% (S:97.5% D:0.4%) F:1.7% M:0.4% |
Unknown |
Данный поисковой запрос позволяет искать протеомы в пределах рода Leptospira, c Proteome Type: Reference и CPD (Complete Proteome Detector): Unknown
Я выбрала протеом Leptospira ryugenii (YH101), то есть последний поисковый запрос в записи количество белков больше соотвествует протеому бактерии Leptospira borgpetersenii serovar Ceylonica, совпадают CPD, близки значения BUSCO.
Скачивание протеома: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000245133)' -O ~/term2/pr8/UP000245133.swiss.gz
Поисковый запрос:: (proteome:UP000245133) AND ((ec:*) OR (protein_name:*enzyme*) OR (keyword:KW-0378) OR (keyword:KW-0560) OR (keyword:KW-0808) OR (keyword:KW-0436) OR (keyword:KW-0456) OR (keyword:KW-0413) OR (keyword:KW-1278))
Результаты: 1119 записей, относящихся к протеому бактерии Leptospira ryugenii. Поиск происходил по следующим критериям: все записи, у которых есть EC, или в названии есть слово "enzyme", или в ключевых словах указан один из 7 классов ферментов.
Конвейер bash: zgrep 'EC=[0-7]'' UP000245133.swiss.gz | wc -l | less
Результаты: 1078 записей, в которых указан один из классов ферментов.
Полученные результаты при поиске через UniProtKB и при помощи Bash оказались вполне правдоподобными и похожими по значениям.
* Также я попробовала искать по ключевым словам:
Конвейер bash: grep '^KW' UP000245133.swiss.gz | grep -i -e 'enzyme' -e 'oxidoreductase' -e 'transferase' -e 'hydrolase' -e 'lyase' -e 'isomerase' -e 'ligase' -e 'translocase' | wc -l | less
Результаты: 1393 записи, в поле KW которых есть название класса фермента или слово "enzyme". Данные результаты получились не очень близки к тем, что я приводила ранее, но тем не менее имеют место быть. Возможно это как-то связано с тем, что в пределах одного фермента данные ключевые слова могли повторяться. Еще один минус - более длинный код.
Цель: посмотреть какие классы ферментов могут преобладать и подумать почему так произошло у данной бактерии.
Конвейер bash: zgrep -o 'EC=[0-7]' UP000245133.swiss.gz | sort | uniq -c | less
EC=1 (оксидоредуктазы) | 127 |
---|---|
EC=2 (трансферазы) | 446 |
EC=3 (гидролазы) | 168 |
EC=4 (лиазы) | 98 |
EC=5 (изомеразы) | 100 |
EC=6 (лигазы) | 107 |
EC=7 (транслоказы) | 32 |
Результаты: мы видим сильное преимущество трансфераз над остальными классами ферментов, это может помочь предположить химизм реакций, которые приводят к патогенному воздействию данной бактерии. Возможно трансферазы необходимы бактериям для того, чтобы модифицировать части клеток-хозяина при проникновении или для того, чтобы попытаться уклониться от имунного ответа. Теперь интересно посмотреть есть ли преобладание каких-то определённых трансфераз.
Конвейер bash: zgrep -o 'EC=2\.[0-100]*' UP000245133.swiss.gz | sort | uniq -c | less
Результаты:
EC=2.1 | 50 |
---|---|
EC=2.2 | 10 |
EC=2.3 | 36 |
EC=2.4 | 65 |
EC=2.5 | 40 |
EC=2.6 | 19 |
EC=2.7 | 211 |
EC=2.8 | 15 |
Видим сильное преобладание EC=2.7. Трансферазы класса EC 2.7 — это трансферазы фосфорсодержащих групп.
Затем проанализируем какие именно фосфотрансферазы присутствуют:
Конвейер bash: zgrep -o 'EC=2\.7\.[0-9]\.' UP000245133.swiss.gz | sort | uniq -c | less
Результаты и выводы: оказалось, что преобладают (24 EC=2.7.1) киназы, (19 EC=2.7.4) фосфотрансферазы с фосфатной группой в качестве акцептора и (49 EC=2.7.7) нуклеотидилтрансферазы. Скорее всего это как-то связано с патогенностью бактерии. Возможно данные ферменты необходимы для участия в регуляторных каскадах самой бактерии или организма-хозяина. Нуклеотидилтрансферазы, которых большинство, учавствуют в синтезе нуклеиновых кислот и могут быть полезны при активном размножении бактерии.
Цель: посмотреть где локализованы белки бактерии и подумать как это связано с патогенностью. (Не у всех записей есть информация о месторасположении белка, но попробовать провести анализ всё же стоит)
Конвейер bash: zgrep "SUBCELLULAR LOCATION:" UP000245133.swiss.gz | grep -o -ie 'bacterial flagellum' -ie 'cell membrane' -ie 'cell outer membrane' -ie 'cell inner membrane' -ie 'cytoplasm' -ie 'endoplasmic reticulum' -ie 'golgi apparatus' | sort | uniq -c | less
Результаты:
Bacterial flagellum | 14 |
---|---|
Cell membrane | 190 |
Cell outer membrane | 21 |
Cell inner membrane | 14 |
Cytoplasm | 206 |
Endoplasmic reticulum | 2 |
Golgi apparatus | 1 |
Выводы: видно явное преобладание белков в цитоплазме, что очевидно, поскольку большинство биохимических процессов протекает именно там. Также показательным является большое количество мембранных белков, что возможно необходимо для проникновения внутрь организма хозяина.