Анализ протеома Halobellus clavatus
1. Поиск протеома, соответствующего геномной сборке
Идентификатор сборки RefSeq: GCF_024498335.1
NCBI Datasets Genome: GCF_024498335.1
Идентификатор сборки INSDC: GCA_024498335.1
При поисковом запросе (genome_assembly:GCA_024498335.1) UniProt Proteomes не выдал никакого результата, что означает, что данная сборка отсутствует в UniProt Proteomes. Поиск более ранних версий невозможен, так как изначально идентификатор указан с первой версией сборки.
Отсутствие сборки возможно произошло из-за того, что:
- Организм еще не был секвенирован или аннотирован
- Данные есть в других базах (NCBI, Ensembl), но не загружены в UniProt
- Протеом временно скрыт (например, на этапе обработки)
2. Поиск и скачивание референсного протеома
Референсный протеом был удален, поэтому при расширенном поиске и введении в поисковую строку (taxonomy_id:1073986) AND (proteome_type:1) появилась возможность выбрать наиболее близкий протеом. Таковым оказался организм Halobellus clavatus, Proteome ID: UP000199170
Команда для скачивания файла:
wget "https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome%3AUP000199170" -O UP000199170.swissprot.gz
3. Оценка количества ферментов в протеоме
Всего белков: 3,679
а) При поисковом запросе в UniProt Proteomes (proteome:UP000199170) AND (ec:*) вышло 478 результатов.
б) При использовании Bash и команды, подсчитывающей количество уникальных ферментативных функций (EC-номеров) в протеоме:
zcat UP000199170.swiss.gz| grep 'DE'| grep -c 'EC='
Командная строка показала 495 результатов.
Разница небольшая, и скорее всего она заключается в том, что Uniprot считает только аннотированные белки, либо в том, что команда может завышать результат из-за повторяющихся EC-номеров в одном белке.
4. Анализ протеома консольными средствами
Архея, описанная в моем мини-обзоре обитала в гиперсоленых водоемах. Логично предположить, что организация белков в различных компартментах организма могла подстроиться под среду обитания археи.
С помощью скрипта на bash:
zcat UP000199170.swiss.gz | grep -E '^(ID|KW)' | tr ';' '\n' | grep -E '^ID|membrane|cytoplasm|extracellular' -i | grep -A1 '^ID' | grep -v '^--' | paste - - | cut -f2 | grep -v '^ID' | sort | uniq -c | sort -nr
Получаем распределение белков по компартментам клетки:
| Локализация | Количество |
|---|---|
| Membrane | 256 |
| Cell membrane | 66 |
| Membrane (разные аннотации) | 48 |
| Cytoplasm | 8 |
| Cell inner membrane | 5 |
| Cell membrane (разные аннотации) | 5 |
| Membrane (разные аннотации) | 4 |
| Membrane | 2 |
| Cell membrane (разные аннотации) | 2 |
| Cytoplasm (разные аннотации) | 1 |
| Cell membrane (разные аннотации) | 1 |
Нетрудно заметить, что довольно большая часть белков сконцентрирована в части мембраны археи. Именно за счет белков она могла:
- Поддерживать ионный баланс в клетке
- Контролировать транспорт веществ через мембрану
- Защищать клетку от внешних стрессовых факторов
Что помогало ей выживать в экстремальных условиях.