Практикум 8

Поиск протеома, соответствующего геномной сборке

Идентификатор моего протеома UP000503278. По информации из INSDC сборка не изменялась, идентификатор - GCA_012849215.1. Поисковых запроса использовала два из интереса. Первый - "(genome_assembly:GCA_012849215.1)", второй - "(organism_id:2728022)". Оба выдали одинаковый результат. Статус протеома - Reference proteome. Статус BUSCO достаточно высокий: C:94% (S:93.4% D:0.6%) F:0.1% M:5.9%. Содержит 4,219 белков.

Поиск и скачивание референсного протеома

У Mucilaginibacter robiniae лишь один референсный протеом, использованный для анализа в мини-обзоре. Поэтому искала нужный для задания на уровне рода Mucilaginibacter. Самое близкое сходство Mucilaginibacter robiniae имеет с Mucilaginibacter polytrichastri. Было решено взять его протеом как референсный, так как помимо схожести с моей бактерией он имеет хорошую оценку BUSCO (C:96.3% (S:95.2% D:1%) F:1% M:2.7%) и CPD "Standard". Для поиска использовала запрос "(taxonomy_id:423349) AND (proteome_type:1)". Проверка вида Mucilaginibacter robiniae осуществлялась запросом "(taxonomy_id:2728022) AND (proteome_type:1)".

Скачивание референсного протеома проводилось с помощью команды wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000186720)' -O UP000186720.swiss.gz

Оценка количества ферментов в протеоме

Для оценки количества ферментативных белков в протеоме Mucilaginibacter polytrichastri использовался поисковый запрос "(proteome:UP000186720) AND (ec:*)" в UniProtKB, вернув 691 результат. В Bash использовалась команда "zgrep -c ‘CATALYTIC ACTIVITY’ UP000186720.swiss.gz." , показавшая 704 результата. Также пробовала конвейер zcat UP000186720.swiss.gz. | grep '^DE'| grep -c 'EC=[0-7]', показавший, что в протеоме 698 ферментативных белков. Результаты достаточно близки.

Анализ протеома консольными средствами

Во многих статьях указывается, что род Mucilaginibacter играет важную роль в расщеплении полисахаридов, в частности, целлюлозы. Интересно посмотреть, есть ли у данного организма способность к ее расщеплению, так как моя Mucilaginibacter robiniae по предыдущим анализам подавала достаточно слабые надежды на использование в расщеплении целлюлозы. Для начала я просмотрела частоту встречаемости гидролаз в протеоме. Использовала конвейер: zcat UP000186720.swiss.gz | grep '^DE'| grep -o 'EC=[1-7]' | sort | uniq -c

Количество EC
79 EC=1
278 EC=2
134 EC=3
57 EC=4
63 EC=5
62 EC=6
25 EC=7

Как видно, гидролазы на втором месте по количеству в протеоме бактерии.

Далее я взглянула на количество гликозидаз среди гидролаз. Было уточнено, что всего в классе гидролаз 13 подсклассов, и меня интересует конкреткно подкласс 3.2. Использовался конвейер zcat UP000186720.swiss.gz | grep '^DE'| grep -E -o 'EC=3\.(1[0-3]|[1-9])\.' | sort | uniq -c .

Количество EC
37 EC=3.1
1 EC=3.13.
33 EC=3.2
22 EC=3.4
18 EC=3.5
22 EC=3.6
1 EC=3.7

Гликозидазы тоже занимают второе место по количеству.

С помощью конвейера zcat UP000186720.swiss.gz | grep '^DE'| grep -o 'EC=3\.2\.[12]\.' | sort | uniq -c удалось узнать, что среди гликозидаз, в которых имеется только два подкласса - гликозидазы, действующие на O- и S-гликозидные связи и гликозидазы, действующие на N-гликозидные связи, преобладают первые, составив 26 гликозидаз, в то время как вторые - всего 7. Конвейер zcat UP000186720.swiss.gz | grep '^DE'| grep -o 'EC=3.2.1.4' | sort | uniq -c помог определить, что в протеоме есть 2 белка-целлюлазы, а конвейер zcat UP000186720.swiss.gz | grep '^DE'| grep -o 'EC=3.2.1.21' | sort | uniq -c, что в протеоме бактерии 6 белков, кодирующих бета-глюкоизидазу.

По полученным данным можно предположить, что бактерия Mucilaginibacter polytrichastri вполне способна расщеплять целлюлозу и вероятно могла бы использоваться в дальнейшем для её разложения.