Практикум 8

Поиск протеома, соответствующего геномной сборке

Идентификатор моего протеома UP000503278. Поисковых запроса использовала два из интереса. По информации из INSDC сборка не изменялась, идентификатор - GCA_012849215.1. Первый - "(genome_assembly:GCA_012849215.1)", второй - "(organism_id:2728022)". Оба выдали одинаковый результат. Статус протеома - Reference proteome. Статус BUSCO достаточно высокий: C:94% (S:93.4% D:0.6%) F:0.1% M:5.9%. Содержит 4,219 белков.

Поиск и скачивание референсного протеома

У Mucilaginibacter robiniae лишь один референсный протеом, использованный для анализа в мини-обзоре. Поэтому искала нужный для задания на уровне рода Mucilaginibacter. Самое близкое сходство Mucilaginibacter robiniae имеет с Mucilaginibacter polytrichastri. Было решено взять его протеом как референсный, так как помимо схожести с моей бактерией он имеет хорошую оценку BUSCO (C:96.3% (S:95.2% D:1%) F:1% M:2.7%) и CPD "Standard". Для поиска использовала запрос "(taxonomy_id:423349) AND (proteome_type:1)". Проверка вида Mucilaginibacter robiniae осуществлялась запросом "(taxonomy_id:2728022) AND (proteome_type:1)".

Оценка количества ферментов в протеоме

Для оценки количества ферментативных белков в протеоме Mucilaginibacter polytrichastri использовался поисковый запрос "(proteome:UP000186720) AND ((ec:1) OR (ec:2) OR (ec:3) OR (ec:4) OR (ec:5) OR (ec:6) OR (ec:7))" в UniProtKB, вернув 691 результат. В Bash использовалась команда "zgrep -c ‘CATALYTIC ACTIVITY’ UP000186720.swiss.gz." , показавшая 704 результата. Также пробовала конвейер zcat UP000186720.swiss.gz. | grep '^DE'| grep -c 'EC=[0-7]', показавший, что в протеоме 698 ферментативных белков. Результаты достаточно близки.

Анализ протеома консольными средствами

Во многих статьях указывается, что род Mucilaginibacter играет важную роль в расщеплении полисахаридов, в частности, целлюлозы. Интересно посмотреть, есть ли у данного организма способность к ее расщеплению, так как моя Mucilaginibacter robiniae по предыдущим анализам подавала достаточно слабые надежды на использование в расщеплении целлюлозы. Для начала я просмотрела частоту встречаемости гидролаз в протеоме. Использовала конвейер: zcat UP000186720.swiss.gz. | grep '^DE'| grep -o 'EC=[0-7]' | sort | uniq -c

Количество EC
79 EC=1
278 EC=2
134 EC=3
57 EC=4
63 EC=5
62 EC=6
25 EC=7

Как видно, гидролазы на втором месте по количеству в протеоме бактерии.

Далее я взглянула на количество гликозидаз среди гидролаз. Использовался конвейерzcat UP000186720.swiss.gz. | grep '^DE'| grep -o 'EC=3\.[0-8]\.' | sort | uniq -c

Количество EC
37 EC=3.1
33 EC=3.2
22 EC=3.4
18 EC=3.5
22 EC=3.6
1 EC=3.7

Гликозидазы тоже занимают второе место по количеству.

С помощью конвейера zcat UP000186720.swiss.gz. | grep '^DE'| grep -o 'EC=3\.2\.[0-99]\.' | sort | uniq -c удалось узнать, что среди гидрозидаз преобладают гликозидазы, действующие на O- и S-гликозидные связи (26 против 7 гликозидазы, действующих на N-гликозидные связи). Конвейер zcat UP000186720.swiss.gz. | grep '^DE'| grep -o 'EC=3.2.1.4' | sort | uniq -c помог определить, что в протеоме есть 2 белка-целлюлазы, а конвейер zcat UP000186720.swiss.gz. | grep '^DE'| grep -o 'EC=3.2.1.21' | sort | uniq -c, что в протеоме бактерии 6 белков, кодирующих бета-глюкоизидазу.

По полученным данным можно предположить, что бактерия Mucilaginibacter polytrichastri вполне способна расщеплять целлюлозу и вероятно могла бы использоваться в дальнейшем для её разложения.