Практикум №8
UniProt Proteomes, EMBOSS
Итак, в прошлом семестре я писал мини-обзор по архее Halanaeroarchaeum sulfurireducens, штамм M27-SA2. Геномная сборка из базы RefSeq имела название GCF_001305655.1. Статус протеома этого штамма - other, т.к. есть штамм HSR2, и он считается референсным. Ссылка на страницу из базы: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_001305655.1/
Идентификатором последней версии сборки INSDC является GCA_001305655.1. По нему же я и делал запрос в UniProt Proteomes(genome_assembly:GCA_001305655.1):
Ну и,собственно, идентификатор протеома и его статус (ID: UP000060390, status: Other proteome):
Референсный протеом я нашёл просто указав поиск по организму(organism_id:1604004):
Чтобы скачать референсный протеом, воспользовался командой

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000069906' -O UP000069906.swiss.gz

Для оценки количества ферментов я воспользовался такими параметрами поиска(proteome:UP000069906) AND (cc_catalytic_activity:*) OR (proteome:UP000069906) AND (ec:*):
В итоге было получено 599 результатов. Поиск по двум параметрам позволил охватить и белки с явно указанной ферментативной функцией (EC), и с общей каталитической активностью (GO)
При работе с файлом воспользовался командой

zgrep -E "EC=[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+|GO:0003824" UP000069906.swiss.gz | sort -u | wc - l

и получил результат в 881 белок. Идентификатор GO с таким номером вроде как отвечает вприцнипе за каталитическую активность белка, от добавления этого параметра прибавляется 2 к общему значению, столько же, сколько если бы я искал через UniProtKB. Наверное, это важно)
Я предположу, что количество, полученное при расширенном поиске на сайте, более верное. Всё-таки алгоритмы TrEMBL должны быть поумнее меня и моих скриптов bash.
Я решил проверить, все ли белки начинаются с метионина при помощи этой команды:

zcat UP000069906.swiss.gz | seqret -filter -sformat swiss -osformat fasta | grep -A1 "^>" | grep -v "^>" | grep -v "^-" | cut -c1 | sort | uniq -c

т.е. вывел все первые буквы последовательностей и обнулял последовательность каждый раз после нахождения. В итоге белков, начинающихся не с метионина, не оказалось. О чём бы это могло говорить, если бы такие были? О каких-либо посттрансляционных модификациях, или что в аннотациях присутствуют зрелые формы белков, с отщеплённым концом. Обычно это мембранные или секретируемые белки