Практикум 8. UniProt Proteomes, EMBOSS
Поиск протеома, соответствующего геномной сборке
Идентификатор геномной сборки Leptospira borgpetersenii serovar Ceylonica в RefSeq: GCF_003516145.1
Cсылка на страницу из базы NCBI Datasets Genome: RefSeq: GCF_003516145.1
Идентификатор последней версии сборки INSDC: GCA_003516145.1
Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_003516145.1)
Идентификатор протеома: UP000263483
Статус протеома: Redundant proteome
Исключён в пользу : UP000599743
Результат один, поэтому сложностей при выборе не возникло.
Краткая информация о протеоме: он содержит 3429 белков; BUSCO C:97.9% (S:97.9% D:0%) F:0% M:2.1%
Поиск и скачивание референсного протеома
Поисковый запрос: (taxonomy_id:174) AND (proteome_type:1)
Результаты:
Entry | Organism | Organism ID | Protein count | BUSCO SingleDuplicatedFragmentedMissing |
CPD |
---|---|---|---|---|---|
UP000011783 |
Leptospira borgpetersenii str. 200701203 (200701203) | 1193007 | 4,773 | n:239 · spirochaetia_odb10 C:85.8% (S:85.8% D:0%) F:8.4% M:5.9% |
Close to standard (high value) |
Данный поисковой запрос позволяет искать протеомы в пределах вида Leptospira borgpetersenii и c Proteome Type: Reference. Был найден один протеом, который использовался в следующих заданиях.
Скачивание протеома: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000011783)' -O ~/term2/pr8/UP000011783.swiss.gz
Оценка количества ферментов в протеоме
Поисковый запрос: (proteome:UP000011783) AND ((ec:*) OR (protein_name:*enzyme*) OR (keyword:KW-0378) OR (keyword:KW-0560) OR (keyword:KW-0808) OR (keyword:KW-0436) OR (keyword:KW-0456) OR (keyword:KW-0413) OR (keyword:KW-1278))
Результаты: 1128 записей, относящихся к протеому бактерии Leptospira borgpetersenii str. 200701203 (200701203). Поиск происходил по следующим критериям: все записи, у которых есть EC, или в названии есть слово "enzyme", или в ключевых словах указан один из 7 классов ферментов.
Конвейер bash: zgrep 'EC=[0-7]' UP000011783.swiss.gz | wc -l | less
Результаты: 1075 записей, в которых указан один из классов ферментов.
Полученные результаты при поиске через UniProtKB и при помощи Bash оказались вполне правдоподобными и похожими по значениям.
* Также я попробовала искать по ключевым словам:
Конвейер bash: grep '^KW' UP000011783.swiss.gz | grep -i -e 'enzyme' -e 'oxidoreductase' -e 'transferase' -e 'hydrolase' -e 'lyase' -e 'isomerase' -e 'ligase' -e 'translocase' | wc -l | less
Результаты: 1412 записи, в поле KW которых есть название класса фермента или слово "enzyme". Данные результаты получились не очень близки к тем, что я приводила ранее, но тем не менее имеют место быть. Возможно это как-то связано с тем, что в пределах одного фермента данные ключевые слова могли повторяться. Еще один минус - более длинный код.
Анализ протеома консольными средствами
Ферменты бактерии Leptospira borgpetersenii serovar Ceylonica
Цель: посмотреть какие классы ферментов могут преобладать и подумать почему так произошло у данной бактерии.
Конвейер bash: zgrep -o 'EC=[0-7]' UP000011783.swiss.gz | sort | uniq -c | less
EC=1 (оксидоредуктазы) | 128 |
---|---|
EC=2 (трансферазы) | 447 |
EC=3 (гидролазы) | 186 |
EC=4 (лиазы) | 94 |
EC=5 (изомеразы) | 90 |
EC=6 (лигазы) | 100 |
EC=7 (транслоказы) | 30 |
Результаты: мы видим сильное преимущество трансфераз над остальными классами ферментов, это может помочь предположить химизм реакций, которые приводят к патогенному воздействию данной бактерии. Возможно трансферазы необходимы бактериям для того, чтобы модифицировать части клеток-хозяина при проникновении или для того, чтобы попытаться уклониться от имунного ответа. Теперь интересно посмотреть есть ли преобладание каких-то определённых трансфераз.
Конвейер bash: zgrep -o 'EC=2\.[0-9]' UP000011783.swiss.gz | sort | uniq -c | less
Результаты:
EC=2.1 | 68 |
---|---|
EC=2.2 | 8 |
EC=2.3 | 39 |
EC=2.4 | 61 |
EC=2.5 | 30 |
EC=2.6 | 24 |
EC=2.7 | 204 |
EC=2.8 | 13 |
Видим сильное преобладание EC=2.7. Трансферазы класса EC 2.7 — это трансферазы фосфорсодержащих групп.
Затем проанализируем какие именно фосфотрансферазы присутствуют:
Конвейер bash: zgrep -o 'EC=2\.7\.[0-9]' UP000011783.swiss.gz | sort | uniq -c | less
Результаты и выводы: оказалось, что сильно преобладают (118 EC=2.7.1) киназы, а также (47 EC=2.7.7) нуклеотидилтрансферазы. Скорее всего это как-то связано с патогенностью бактерии. Возможно данные ферменты необходимы для участия в регуляторных каскадах самой бактерии или организма-хозяина. Нуклеотидилтрансферазы, которых большинство, учавствуют в синтезе нуклеиновых кислот и могут быть полезны при активном размножении бактерии.
Анализ месторасположения белков
Цель: посмотреть где локализованы белки бактерии и подумать как это связано с патогенностью. (Не у всех записей есть информация о месторасположении белка, но попробовать провести анализ всё же стоит)
Конвейер bash: zgrep "SUBCELLULAR LOCATION:" UP000011783.swiss.gz | grep -o -ie 'bacterial flagellum' -ie 'cell membrane' -ie 'cell outer membrane' -ie 'cell inner membrane' -ie 'cytoplasm' -ie 'golgi apparatus' | sort | uniq -c | less
Результаты:
Bacterial flagellum | 15 |
---|---|
Cell membrane | 172 |
Cell outer membrane | 25 |
Cell inner membrane | 9 |
Cytoplasm | 189 |
Golgi apparatus | 1 |
Выводы: видно явное преобладание белков в цитоплазме, что очевидно, поскольку большинство биохимических процессов протекает именно там. Также показательным является большое количество мембранных белков, что возможно необходимо для проникновения внутрь организма хозяина.