Практикум 8

1. Поиск протеома археи Haloprofundus salinisoli, соответствующего геномной сборке

Ищем протеом нужной археи. Для этого с помощью базы Datasets Genome по идентификатору сборки RefSeq выясняем идентификатор последней версии сборки INSDC, после чего ищем по нему протеом в UniProt

Идентификатор сборки RefSeq: GCF_020097815.1 (Страница из базы NCBI Datasets Genome, соответствующая этой сборке)
Идентификатор последней версии сборки INSDC: GCA_020097815.1
Запрос: (genome_assembly:GCA_020097815.1)

Поиск по данному запросу в UniProt не даёт результатов. Скорее всего, это связано с тем, что архея была открына недавно.

2. Поиск и скачивание референсного протеома

Поскольку протеома Haloprofundus salinisoli нет в UniProt, ищем его ближайшего родственника. Для этого выполняем поиск по id родительского таксона Haloprofundus: (taxonomy_id: 1911573). Получаем два протеома: для Haloprofundus marisrubri и Haloprofundus sp.MHR1. Выберем Haloprofundus marisrubri. Его идентификатор протеома - UP000054387.

Для скачивания протеома археи используем команду bash:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000054387' -O UP000054387.swiss.gz

3. Оценка количества ферментов в протеоме

Во-первых, можно оценить количество ферментов с помощью bash. Для этого можно использовать конвеер:

zcat UP000054387.swiss.gz | grep 'CATALYTIC ACTIVITY'| sort| uniq -c

Результат:

487 CC -!- CATALYTIC ACTIVITY:

То есть, в протеоме 487 каталитически активных ферментов.

Во-вторых, можно использовать поиск в UniProt.
Поисковый запрос - (proteome:UP000054387) AND (ec:*).
Он выдает 458 результатов, то есть, что в протеоме 458 каталитически активных ферментов.

Результаты получаются разные - 487 ферментов у bash и 458 ферментов у UniProt. Различие может быть связано с недостаточной изученностью протеома.

4. Анализ протеома консольными средствами

Я хочу проанализировать длины аминокислотных последовательностей в протеоме археи Haloprofundus marisrubri

1) Самая короткая последовательность находится конвеером:

zcat UP000054387.swiss.gz| grep ^SQ|tr -s ' '|tr ' ' '\t'|cut -f3| sort -n| head -n1

Её длина: 43 аминокислоты
2) Самая длинная последовательность находится конвеером:

zcat UP000054387.swiss.gz| grep ^SQ|tr -s ' '|tr ' ' '\t'|cut -f3| sort -n| tail -n1

Её длина: 1681 аминокислота
3) Самая частовстречаемая длина находится конвеером:

zcat UP000054387.swiss.gz| grep ^SQ|tr -s ' '|tr ' ' '\t'|cut -f3| sort -n| uniq -c|tr -s ' '|tr ' ' '\t'| cut -f2,3| sort -n

В его выводе мы видим, что больше всего (по 17 штук) последовательностей длиной 127, 130, 151, 159 и 177 аминокислот, что составляет 7,56%, 7,73%, 8,98% и 10,53% от длины самой большой последовательности соответственно
То есть, в наибольшем количестве представлены относительно небольшие, но и не самые маленькие аминокислотные последовательности протеома: 7,56-10,53% от самой длинной аминокислоты.