Практикум 8. UniProt Proteomes и EMBOSS

Бактерия: Carboxydocella thermautotrophica (штамм 019, TaxID: 178899)

1. Поиск протеома, соответствующего геномной сборке

Геномная сборка из первого семестра: GCA_003054495.1. Полная сборка вида: GCA_003047205.1.

Ссылка NCBI Datasets: GCA_003047205.1

Идентификаторы сборки: INSDC: GCA_003047205.1. В RefSeq данная сборка не представлена.

Поисковый запрос в UniProt Proteomes: genome_assembly:GCA_003047205.1

Результат: протеом UP000241323.

ID протеомаUP000241323
СтатусReference proteome
Число белков2 669
BUSCOC:96.6% (S:95.1%, D:1.5%), F:0.8%, M:2.7%
ПанельВходит в пан-протеом C. sporoproducens DSM 16521

2. Поиск и скачивание референсного протеома

Поиск референсного протеома выполнен с запросом, содержащим ограничение по таксону и статусу протеома:

taxonomy_id:178899 AND proteome_type:1

Результат: UP000241323 (Reference proteome).

Протеом скачан в формате swiss (сжатый gzip) через REST API UniProt:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000241323)' -O ~/term2/pr8/UP000241323.swiss.gz

3. Оценка числа белков с альфа-спиралями

Скрипт count_helices.sh считает записи (а не строки), содержащие поля FT HELIX и FT TRANSMEM, используя разделитель записей //.

#!/bin/bash
echo "Всего записей:"
zcat $1 | grep -c '^//'

echo "Записей с FT HELIX:"
zcat $1 | awk '/^FT   HELIX/{found=1} /^\/\//{if(found) count++; found=0} END{print count}'

echo "Записей с FT TRANSMEM:"
zcat $1 | awk '/^FT   TRANSMEM/{found=1} /^\/\//{if(found) count++; found=0} END{print count}'
            

Результаты:

ПараметрЗначение
Всего записей2 669
Записей с FT HELIX0
Записей с FT TRANSMEM539

Выводы:

4. Оценка количества ферментов

Скрипт count_enzymes.sh считает записи с EC и ключевыми словами KW:

#!/bin/bash
echo "Записей с EC:"
zcat $1 | awk '/EC=/{found=1} /^\/\//{if(found) count++; found=0} END{print count}'

echo "Записей с KW (Hydrolase, Transferase...):"
zcat $1 | awk '/^KW.*(Hydrolase|Transferase|Oxidoreductase|Lyase|Isomerase|Ligase|Translocase)/{found=1} /^\/\//{if(found) count++; found=0} END{print count}'
            

Результаты скрипта:

МетодЧисло записей
По EC580
По KW957

Поисковые запросы на сайте UniProt:

  1. proteome:UP000241323 AND ec:*580 находок (все белки с любым кодом EC).
  2. proteome:UP000241323 AND keyword:"Hydrolase"215 находок (белки с ключевым словом Hydrolase).

Выводы: