Задание 8
Работа в UniProt 2: Electric Boogaloo
Выбор протеома:
Изначально была предпринята попытка найти протеом по геномной сборке (GCF_003268615.1) на NCBI. После этого был введён запрос в UniProt proteoms (genome_assembly:GCA_003268615.1), но результатов не нашлось.
Далее попробовал найти по роду Blattabacterium(taxonomy_id:34098) и получил 22 результата, из которых 10 были redundant, одиннадцать others, и один референсный протеом. Мной был выбран референсный протеом.
Поиск и скачивание референсного протеома:
Команда для скачиваня протеома: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(xref:proteomes-UP000002225)' -O UP000002225.swiss.gz
Оценка количества ферментов в протеоме:
Методами поисковой строки UniProtKB:
Для анализа того, какие белки облядают ферментативной активностью, были использованы несколько запросов.
- (proteome:UP000002225) AND (cc_catalytic_activity:*)
- (proteome:UP000002225) AND (ec:*)
- (proteome:UP000002225) AND ((cc_catalytic_activity:*) OR (ec:*))
Этот запрос дал 227 результатов, однако нужна перепроверка, так как могут быть белки, у которых указано наличие способности к катализу реакций, но не указано ec(то есть не понятно, что за реакцию катализирует). Для проверки можно использовать два последующих запроса.
Был получен 261 результат. Разница в 34 !
Также 261 результат. Таким образом, мы можем предположить что у 261 белка обнаружена каталитическая активность.
Методами bash:
При работе с файлами с расширением .gz мы можем использовать несколько команд(zgrep, zless, zcat), работающих примерно также, как и те, что мы использовали ранее(grep, less, cat)
После применения команды zgrep ^'CC' UP000002225.swiss.gz , в выдаче мы обнаруживаем кучу строк начинающихся на '!' и ещё кучу строк упоминающих, что данные закопирайчены(Copyrighted by). Всего 8175 строк.(всего в файле их было 54664). Дальше можно попробовать разобраться с выдачей строк, начинающихся на '!'. Лишь в некоторых есть фраза Catalitic activity. Вырежем их и посчитаем, сколько получилось.
Итоговая команда: zgrep '^CC' UP000002225.swiss.gz | grep '\-!\- CATALYTIC ACTIVITY:' | wc -l
Результат: 257
Анализ протеома консольными средствами:
В прошлом семестре мы выяснили, что данная бактерия является эндосимбионтом тараканов. Она учавствует в разложении мочевой кислоты, и соответственно протеом должен содержать уреазу(об этом же нам говорит описание организма на PubMed)
zcat UP000002225.swiss.gz | grep "3.5.1.5"
Данная команда выдаёт все строки содержащие 3.5.1.5 , что является EC уреазы. При анализе этих строк, было выяснено, что имеются два белка с этим EC, что подтверждает нашу догадку.