Практикум 8. UniProt Proteomes, EMBOSS

Поиск протеома, соответствующего геномной сборке

Идентификатор геномной сборки Leptospira borgpetersenii serovar Ceylonica в RefSeq: GCF_003516145.1

Cсылка на страницу из базы NCBI Datasets Genome: RefSeq: GCF_003516145.1

Идентификатор последней версии сборки INSDC: GCA_003516145.1

Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_003516145.1)

Идентификатор протеома: UP000263483

Статус протеома: Redundant proteome

Исключён в пользу : UP000599743

Результат один, поэтому сложностей при выборе не возникло.

Краткая информация о протеоме: он содержит 3429 белков; BUSCO C:97.9% (S:97.9% D:0%) F:0% M:2.1%

Поиск и скачивание референсного протеома

Поисковый запрос: (taxonomy_id:174) AND (proteome_type:1)

Результаты:

Entry Organism Organism ID Protein count BUSCO
SingleDuplicatedFragmentedMissing
CPD

UP000011783
Leptospira borgpetersenii str. 200701203 (200701203) 1193007 4,773 n:239 · spirochaetia_odb10
C:85.8% (S:85.8% D:0%) F:8.4% M:5.9%
Close to standard (high value)

Данный поисковой запрос позволяет искать протеомы в пределах вида Leptospira borgpetersenii и c Proteome Type: Reference. Был найден один протеом, который использовался в следующих заданиях.

Скачивание протеома: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000011783)' -O ~/term2/pr8/UP000011783.swiss.gz

Оценка количества ферментов в протеоме

Поисковый запрос: (proteome:UP000011783) AND ((ec:*) OR (protein_name:*enzyme*) OR (keyword:KW-0378) OR (keyword:KW-0560) OR (keyword:KW-0808) OR (keyword:KW-0436) OR (keyword:KW-0456) OR (keyword:KW-0413) OR (keyword:KW-1278))

Результаты: 1128 записей, относящихся к протеому бактерии Leptospira borgpetersenii str. 200701203 (200701203). Поиск происходил по следующим критериям: все записи, у которых есть EC, или в названии есть слово "enzyme", или в ключевых словах указан один из 7 классов ферментов.

Конвейер bash: zgrep 'EC=[0-7]' UP000011783.swiss.gz | wc -l | less

Результаты: 1075 записей, в которых указан один из классов ферментов.

Полученные результаты при поиске через UniProtKB и при помощи Bash оказались вполне правдоподобными и похожими по значениям.

* Также я попробовала искать по ключевым словам:

Конвейер bash: grep '^KW' UP000011783.swiss.gz | grep -i -e 'enzyme' -e 'oxidoreductase' -e 'transferase' -e 'hydrolase' -e 'lyase' -e 'isomerase' -e 'ligase' -e 'translocase' | wc -l | less

Результаты: 1412 записи, в поле KW которых есть название класса фермента или слово "enzyme". Данные результаты получились не очень близки к тем, что я приводила ранее, но тем не менее имеют место быть. Возможно это как-то связано с тем, что в пределах одного фермента данные ключевые слова могли повторяться. Еще один минус - более длинный код.

Анализ протеома консольными средствами

Ферменты бактерии Leptospira borgpetersenii serovar Ceylonica

Цель: посмотреть какие классы ферментов могут преобладать и подумать почему так произошло у данной бактерии.

Конвейер bash: zgrep -o 'EC=[0-7]' UP000011783.swiss.gz | sort | uniq -c | less

EC=1 (оксидоредуктазы) 128
EC=2 (трансферазы) 447
EC=3 (гидролазы) 186
EC=4 (лиазы) 94
EC=5 (изомеразы) 90
EC=6 (лигазы) 100
EC=7 (транслоказы) 30

Результаты: мы видим сильное преимущество трансфераз над остальными классами ферментов, это может помочь предположить химизм реакций, которые приводят к патогенному воздействию данной бактерии. Возможно трансферазы необходимы бактериям для того, чтобы модифицировать части клеток-хозяина при проникновении или для того, чтобы попытаться уклониться от имунного ответа. Теперь интересно посмотреть есть ли преобладание каких-то определённых трансфераз.

Конвейер bash: zgrep -o 'EC=2\.[0-9]' UP000011783.swiss.gz | sort | uniq -c | less

Результаты:

EC=2.1                              68                                   
EC=2.2 8
EC=2.3 39
EC=2.4 61
EC=2.5 30
EC=2.6 24
EC=2.7 204
EC=2.8 13

Видим сильное преобладание EC=2.7. Трансферазы класса EC 2.7 — это трансферазы фосфорсодержащих групп.

Затем проанализируем какие именно фосфотрансферазы присутствуют:

Конвейер bash: zgrep -o 'EC=2\.7\.[0-9]' UP000011783.swiss.gz | sort | uniq -c | less

Результаты и выводы: оказалось, что сильно преобладают (118 EC=2.7.1) киназы, а также (47 EC=2.7.7) нуклеотидилтрансферазы. Скорее всего это как-то связано с патогенностью бактерии. Возможно данные ферменты необходимы для участия в регуляторных каскадах самой бактерии или организма-хозяина. Нуклеотидилтрансферазы, которых большинство, учавствуют в синтезе нуклеиновых кислот и могут быть полезны при активном размножении бактерии.

Анализ месторасположения белков

Цель: посмотреть где локализованы белки бактерии и подумать как это связано с патогенностью. (Не у всех записей есть информация о месторасположении белка, но попробовать провести анализ всё же стоит)

Конвейер bash: zgrep "SUBCELLULAR LOCATION:" UP000011783.swiss.gz | grep -o -ie 'bacterial flagellum' -ie 'cell membrane' -ie 'cell outer membrane' -ie 'cell inner membrane' -ie 'cytoplasm' -ie 'golgi apparatus' | sort | uniq -c | less

Результаты:

Bacterial flagellum                15               
Cell membrane 172
Cell outer membrane 25
Cell inner membrane 9
Cytoplasm 189
Golgi apparatus 1

Выводы: видно явное преобладание белков в цитоплазме, что очевидно, поскольку большинство биохимических процессов протекает именно там. Также показательным является большое количество мембранных белков, что возможно необходимо для проникновения внутрь организма хозяина.