Практикум 8. UniProt Proteomes, EMBOSS

Поиск протеома, соответствующего геномной сборке

Идентификатор геномной сборки Leptospira borgpetersenii serovar Ceylonica в RefSeq: GCF_003516145.1

Cсылка на страницу из базы NCBI Datasets Genome: RefSeq: GCF_003516145.1

Идентификатор последней версии сборки INSDC: GCA_003516145.1

Поисковый запрос по UniProt Proteomes: GCA_003516145.1

Идентификатор протеома: UP000263483

Статус протеома: Redundant proteome

Результат один, поэтому сложностей при выборе не возникло.

Краткая информация о протеоме: он содержит 3429 белков; BUSCO C:97.9% (S:97.9% D:0%) F:0% M:2.1%

Поиск и скачивание референсного протеома

Было проведено 2 поиска:

Поисковый запрос: (taxonomy_id:174) AND (proteome_type:1)

Результаты:

Entry Organism Organism ID Protein count BUSCO
SingleDuplicatedFragmentedMissing
CPD

UP000011783
Leptospira borgpetersenii str. 200701203 (200701203) 1193007 4,773 n:239 · spirochaetia_odb10
C:85.8% (S:85.8% D:0%) F:8.4% M:5.9%
Close to standard (high value)

Данный поисковой запрос позволяет искать протеомы в пределах вида Leptospira borgpetersenii и c Proteome Type: Reference.

Поисковый запрос: (taxonomy_id:171) AND (proteome_type:1) AND (cpd:6)

Результаты:

Entry Organism Organism ID Protein count BUSCO
SingleDuplicatedFragmentedMissing
CPD

UP000245133
Leptospira ryugenii(YH101) 1917863 3,659 n:239 · spirochaetia_odb10
C:97.9% (S:97.5% D:0.4%) F:1.7% M:0.4%
Unknown

Данный поисковой запрос позволяет искать протеомы в пределах рода Leptospira, c Proteome Type: Reference и CPD (Complete Proteome Detector): Unknown

Я выбрала протеом Leptospira ryugenii (YH101), то есть последний поисковый запрос в записи количество белков больше соотвествует протеому бактерии Leptospira borgpetersenii serovar Ceylonica, совпадают CPD, близки значения BUSCO.

Скачивание протеома: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000245133)' -O ~/term2/pr8/UP000245133.swiss.gz

Оценка количества ферментов в протеоме

Поисковый запрос:: (proteome:UP000245133) AND ((ec:*) OR (protein_name:*enzyme*) OR (keyword:KW-0378) OR (keyword:KW-0560) OR (keyword:KW-0808) OR (keyword:KW-0436) OR (keyword:KW-0456) OR (keyword:KW-0413) OR (keyword:KW-1278))

Результаты: 1119 записей, относящихся к протеому бактерии Leptospira ryugenii. Поиск происходил по следующим критериям: все записи, у которых есть EC, или в названии есть слово "enzyme", или в ключевых словах указан один из 7 классов ферментов.

Конвейер bash: zgrep 'EC=[0-7]'' UP000245133.swiss.gz | wc -l | less

Результаты: 1078 записей, в которых указан один из классов ферментов.

Полученные результаты при поиске через UniProtKB и при помощи Bash оказались вполне правдоподобными и похожими по значениям.

* Также я попробовала искать по ключевым словам:

Конвейер bash: grep '^KW' UP000245133.swiss.gz | grep -i -e 'enzyme' -e 'oxidoreductase' -e 'transferase' -e 'hydrolase' -e 'lyase' -e 'isomerase' -e 'ligase' -e 'translocase' | wc -l | less

Результаты: 1393 записи, в поле KW которых есть название класса фермента или слово "enzyme". Данные результаты получились не очень близки к тем, что я приводила ранее, но тем не менее имеют место быть. Возможно это как-то связано с тем, что в пределах одного фермента данные ключевые слова могли повторяться. Еще один минус - более длинный код.

Анализ протеома консольными средствами

Ферменты бактерии Leptospira borgpetersenii serovar Ceylonica

Цель: посмотреть какие классы ферментов могут преобладать и подумать почему так произошло у данной бактерии.

Конвейер bash: zgrep -o 'EC=[0-7]' UP000245133.swiss.gz | sort | uniq -c | less

EC=1 (оксидоредуктазы) 127
EC=2 (трансферазы) 446
EC=3 (гидролазы) 168
EC=4 (лиазы) 98
EC=5 (изомеразы) 100
EC=6 (лигазы) 107
EC=7 (транслоказы) 32

Результаты: мы видим сильное преимущество трансфераз над остальными классами ферментов, это может помочь предположить химизм реакций, которые приводят к патогенному воздействию данной бактерии. Возможно трансферазы необходимы бактериям для того, чтобы модифицировать части клеток-хозяина при проникновении или для того, чтобы попытаться уклониться от имунного ответа. Теперь интересно посмотреть есть ли преобладание каких-то определённых трансфераз.

Конвейер bash: zgrep -o 'EC=2\.[0-100]*' UP000245133.swiss.gz | sort | uniq -c | less

Результаты:

EC=2.1                              50                                   
EC=2.2 10
EC=2.3 36
EC=2.4 65
EC=2.5 40
EC=2.6 19
EC=2.7 211
EC=2.8 15

Видим сильное преобладание EC=2.7. Трансферазы класса EC 2.7 — это трансферазы фосфорсодержащих групп.

Затем проанализируем какие именно фосфотрансферазы присутствуют:

Конвейер bash: zgrep -o 'EC=2\.7\.[0-9]\.' UP000245133.swiss.gz | sort | uniq -c | less

Результаты и выводы: оказалось, что преобладают (24 EC=2.7.1) киназы, (19 EC=2.7.4) фосфотрансферазы с фосфатной группой в качестве акцептора и (49 EC=2.7.7) нуклеотидилтрансферазы. Скорее всего это как-то связано с патогенностью бактерии. Возможно данные ферменты необходимы для участия в регуляторных каскадах самой бактерии или организма-хозяина. Нуклеотидилтрансферазы, которых большинство, учавствуют в синтезе нуклеиновых кислот и могут быть полезны при активном размножении бактерии.

Анализ месторасположения белков

Цель: посмотреть где локализованы белки бактерии и подумать как это связано с патогенностью. (Не у всех записей есть информация о месторасположении белка, но попробовать провести анализ всё же стоит)

Конвейер bash: zgrep "SUBCELLULAR LOCATION:" UP000245133.swiss.gz | grep -o -ie 'bacterial flagellum' -ie 'cell membrane' -ie 'cell outer membrane' -ie 'cell inner membrane' -ie 'cytoplasm' -ie 'endoplasmic reticulum' -ie 'golgi apparatus' | sort | uniq -c | less

Результаты:

Bacterial flagellum                14               
Cell membrane 190
Cell outer membrane 21
Cell inner membrane 14
Cytoplasm 206
Endoplasmic reticulum 2
Golgi apparatus 1

Выводы: видно явное преобладание белков в цитоплазме, что очевидно, поскольку большинство биохимических процессов протекает именно там. Также показательным является большое количество мембранных белков, что возможно необходимо для проникновения внутрь организма хозяина.