Практикум №8
UniProt Proteomes, EMBOSS
Итак, в прошлом семестре я писал мини-обзор по архее Halanaeroarchaeum sulfurireducens, штамм M27-SA2. Геномная сборка из базы RefSeq имела название GCF_001305655.1. Статус протеома этого штамма - other, т.к. есть штамм HSR2, и он считается референсным. Ссылка на страницу из базы: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_001305655.1/
Идентификатором последней версии сборки INSDC является GCA_001305655.1. По нему же я и делал запрос в UniProt Proteomes:
Ну и,собственно, идентификатор протеома и его статус (ID: UP000060390, status: Other proteome):
Референсный протеом я нашёл просто указав поиск по организму:
Чтобы скачать референсный протеом, воспользовался командой

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome_id:UP000069906' -O UP000069906.swiss.gz

Для оценки количества ферментов я воспользовался такими параметрами поиска:
В итоге было получено 599 результатов. Поиск по двум параметрам позволил охватить и белки с явно указанной ферментативной функцией (EC), и с общей каталитической активностью (GO)
При работе с файлом воспользовался командой

zgrep -E "EC=[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+|GO:0003824" UP000069906.swiss.gz | sort -u | wc - l

и получил результат в 881 белок. Идентификатор GO с таким номером вроде как отвечает вприцнипе за каталитическую активность белка, от добавления этого параметра прибавляется 2 к общему значению, столько же, сколько если бы я искал через UniProtKB. Наверное, это важно)
Я предположу, что количество, полученное при расширенном поиске на сайте, более верное. Всё-таки алгоритмы TrEMBL должны быть поумнее меня и моих скриптов bash.
Я решил проверить, все ли белки начинаются с метионина при помощи этой команды:

zcat UP000069906.swiss.gz | seqret -filter -sformat swiss -osformat fasta | awk '/^>/ {if (seq) print substr(seq,1,1); seq=""} !/^>/ {seq=seq $0} END {if (seq) print substr(seq,1,1)}' | sort | uniq -c

т.е. вывел все первые буквы последовательностей и обнулял последовательность каждый раз после нахождения. В итоге белков, начинающихся не с метионина, не оказалось. О чём бы это могло говорить, если бы такие были? О каких-либо посттрансляционных модификациях, или что в аннотациях присутствуют зрелые формы белков, с отщеплённым концом. Обычно это мембранные или секретируемые белки