Ищем протеом нужной археи. Для этого с помощью базы Datasets Genome по идентификатору сборки RefSeq выясняем идентификатор последней версии сборки INSDC, после чего ищем по нему протеом в UniProt
Поиск по данному запросу в UniProt не даёт результатов. Скорее всего, это связано с тем, что архея была открына недавно.
Поскольку протеома Haloprofundus salinisoli нет в UniProt, ищем его ближайшего родственника. Для этого выполняем поиск по id родительского таксона Haloprofundus: (taxonomy_id: 1911573). Получаем два протеома: для Haloprofundus marisrubri и Haloprofundus sp.MHR1. Выберем Haloprofundus marisrubri. Его идентификатор протеома - UP000054387.
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000054387' -O UP000054387.swiss.gz
zcat UP000054387.swiss.gz | grep 'CATALYTIC ACTIVITY'| sort| uniq -c
Результат:487 CC -!- CATALYTIC ACTIVITY:
То есть, в протеоме 487 каталитически активных ферментов.Результаты получаются разные - 487 ферментов у bash и 458 ферментов у UniProt. Различие может быть связано с недостаточной изученностью протеома.
Я хочу проанализировать длины аминокислотных последовательностей в протеоме археи Haloprofundus marisrubri
zcat UP000054387.swiss.gz| grep ^SQ|tr -s ' '|tr ' ' '\t'|cut -f3| sort -n| head -n1
Её длина: 43 аминокислотыzcat UP000054387.swiss.gz| grep ^SQ|tr -s ' '|tr ' ' '\t'|cut -f3| sort -n| tail -n1
Её длина: 1681 аминокислотаzcat UP000054387.swiss.gz| grep ^SQ|tr -s ' '|tr ' ' '\t'|cut -f3| sort -n| uniq -c|tr -s ' '|tr ' ' '\t'| cut -f2,3| sort -n
В его выводе мы видим, что больше всего (по 17 штук) последовательностей длиной 127, 130, 151, 159 и 177 аминокислот, что составляет 7,56%, 7,73%, 8,98% и 10,53% от длины самой большой последовательности соответственно