Практикум 8. UniProt Proteomes и EMBOSS
Бактерия: Carboxydocella thermautotrophica (штамм 019, TaxID: 178899)
1. Поиск протеома, соответствующего геномной сборке
Геномная сборка из первого семестра: GCA_003054495.1. Полная сборка вида: GCA_003047205.1.
Ссылка NCBI Datasets: GCA_003047205.1
Идентификаторы сборки: INSDC: GCA_003047205.1. В RefSeq данная сборка не представлена.
Поисковый запрос в UniProt Proteomes: genome_assembly:GCA_003047205.1
Результат: протеом UP000241323.
| ID протеома | UP000241323 |
|---|---|
| Статус | Reference proteome |
| Число белков | 2 669 |
| BUSCO | C:96.6% (S:95.1%, D:1.5%), F:0.8%, M:2.7% |
| Панель | Входит в пан-протеом C. sporoproducens DSM 16521 |
2. Поиск и скачивание референсного протеома
Поиск референсного протеома выполнен с запросом, содержащим ограничение по таксону и статусу протеома:
taxonomy_id:178899 AND proteome_type:1
Результат: UP000241323 (Reference proteome).
Протеом скачан в формате swiss (сжатый gzip) через REST API UniProt:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000241323)' -O ~/term2/pr8/UP000241323.swiss.gz
3. Оценка числа белков с альфа-спиралями
Скрипт count_helices.sh считает записи (а не строки), содержащие поля FT HELIX и FT TRANSMEM, используя разделитель записей //.
#!/bin/bash
echo "Всего записей:"
zcat $1 | grep -c '^//'
echo "Записей с FT HELIX:"
zcat $1 | awk '/^FT HELIX/{found=1} /^\/\//{if(found) count++; found=0} END{print count}'
echo "Записей с FT TRANSMEM:"
zcat $1 | awk '/^FT TRANSMEM/{found=1} /^\/\//{if(found) count++; found=0} END{print count}'
Результаты:
| Параметр | Значение |
|---|---|
| Всего записей | 2 669 |
| Записей с FT HELIX | 0 |
| Записей с FT TRANSMEM | 539 |
Выводы:
- FT HELIX = 0: в протеоме вторичная структура не аннотирована (типично для TrEMBL).
- FT TRANSMEM = 539 записей: трансмембранные участки почти всегда альфа-спиральные, это нижняя оценка числа белков с альфа-спиралями (около 20% протеома).
- Реальное число белков с альфа-спиралями заведомо выше, но по данным UniProt точно определить невозможно.
4. Оценка количества ферментов
Скрипт count_enzymes.sh считает записи с EC и ключевыми словами KW:
#!/bin/bash
echo "Записей с EC:"
zcat $1 | awk '/EC=/{found=1} /^\/\//{if(found) count++; found=0} END{print count}'
echo "Записей с KW (Hydrolase, Transferase...):"
zcat $1 | awk '/^KW.*(Hydrolase|Transferase|Oxidoreductase|Lyase|Isomerase|Ligase|Translocase)/{found=1} /^\/\//{if(found) count++; found=0} END{print count}'
Результаты скрипта:
| Метод | Число записей |
|---|---|
| По EC | 580 |
| По KW | 957 |
Поисковые запросы на сайте UniProt:
proteome:UP000241323 AND ec:*— 580 находок (все белки с любым кодом EC).proteome:UP000241323 AND keyword:"Hydrolase"— 215 находок (белки с ключевым словом Hydrolase).
Выводы:
- Поиск по EC даёт 580 белков (около 22% протеома) — это белки, для которых предсказана конкретная ферментативная реакция.
- Поиск по KW даёт 957 записей (около 36% протеома) — более широкая оценка, включающая белки с ферментативными доменами без точного кода EC.
- Реальное число ферментов, вероятно, находится между этими оценками или выше, так как часть гипотетических белков может обладать неизвестной ферментативной активностью.
- Оба запроса на сайте UniProt валидны и дают корректные результаты.