Анализ протеома Halobellus clavatus

1. Поиск протеома, соответствующего геномной сборке

Идентификатор сборки RefSeq: GCF_024498335.1

NCBI Datasets Genome: GCF_024498335.1

Идентификатор сборки INSDC: GCA_024498335.1

При поисковом запросе (genome_assembly:GCA_024498335.1) UniProt Proteomes не выдал никакого результата, что означает, что данная сборка отсутствует в UniProt Proteomes. Поиск более ранних версий невозможен, так как изначально идентификатор указан с первой версией сборки.

Отсутствие сборки возможно произошло из-за того, что:

  • Организм еще не был секвенирован или аннотирован
  • Данные есть в других базах (NCBI, Ensembl), но не загружены в UniProt
  • Протеом временно скрыт (например, на этапе обработки)

2. Поиск и скачивание референсного протеома

Референсный протеом был удален, поэтому при расширенном поиске и введении в поисковую строку (taxonomy_id:1073986) AND (proteome_type:1) появилась возможность выбрать наиболее близкий протеом. Таковым оказался организм Halobellus clavatus, Proteome ID: UP000199170

Команда для скачивания файла:

wget "https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome%3AUP000199170" -O UP000199170.swissprot.gz

3. Оценка количества ферментов в протеоме

Всего белков: 3,679

а) При поисковом запросе в UniProt Proteomes (proteome:UP000199170) AND (ec:*) вышло 478 результатов.

б) При использовании Bash и команды, подсчитывающей количество уникальных ферментативных функций (EC-номеров) в протеоме:

zcat UP000199170.swiss.gz| grep 'DE'| grep -c 'EC='

Командная строка показала 495 результатов.

Разница небольшая, и скорее всего она заключается в том, что Uniprot считает только аннотированные белки, либо в том, что команда может завышать результат из-за повторяющихся EC-номеров в одном белке.

4. Анализ протеома консольными средствами

Архея, описанная в моем мини-обзоре обитала в гиперсоленых водоемах. Логично предположить, что организация белков в различных компартментах организма могла подстроиться под среду обитания археи.

С помощью скрипта на bash:

zcat UP000199170.swiss.gz | grep -E '^(ID|KW)' | tr ';' '\n' | grep -E '^ID|membrane|cytoplasm|extracellular' -i | grep -A1 '^ID' | grep -v '^--' | paste - - | cut -f2 | grep -v '^ID' | sort | uniq -c | sort -nr

Получаем распределение белков по компартментам клетки:

Локализация Количество
Membrane 256
Cell membrane 66
Membrane (разные аннотации) 48
Cytoplasm 8
Cell inner membrane 5
Cell membrane (разные аннотации) 5
Membrane (разные аннотации) 4
Membrane 2
Cell membrane (разные аннотации) 2
Cytoplasm (разные аннотации) 1
Cell membrane (разные аннотации) 1

Нетрудно заметить, что довольно большая часть белков сконцентрирована в части мембраны археи. Именно за счет белков она могла:

  • Поддерживать ионный баланс в клетке
  • Контролировать транспорт веществ через мембрану
  • Защищать клетку от внешних стрессовых факторов
  • Что помогало ей выживать в экстремальных условиях.