Анализ протеома

1. Поиск протеома, соответствующего геномной сборке

Для идентификации протеома в базе данных UniProt, соответствующего геномной сборке Thermoactinomyces vulgaris, первым шагом стал переход на страницу сборки в NCBI Datasets.

Для сборки были полученны следующие индитификаторы:

Поисковый запрос по UniProt Proteomes:

(genome_assembly:GCA_005886755.1)


Результат поиска:

Найден протеом с индентификатором UP000308107.


Статус протеома:

"Other proteome" (не референсный и не избыточный). Протеом не является избыточным и не был удален из базы данных. Для Thermoactinomyces vulgaris в базе NCBI представлено 9 сборок на уровне генома.

2. Поиск и скачивание референсного протеома

Был проведён поиск референсного протеома, наиболее близкого к протеому UP000308107. В процессе работы было установлено, что для Thermoactinomyces vulgaris (TaxID: 2026) существуют референсные протеомы, и был выбран наиболее качественный из них.

Определение TaxID:

С помощью базы UniProt Taxonomy по названию "Thermoactinomyces vulgaris" был найден TaxID: 2026.


Поисковый запрос в базе Proteomes:

(taxonomy_id:2026) AND (proteome_type:1)


Результат поиска:

Найден референсный протеом с идентификатором UP000641910.

Характеристики протеома UP000641910:

  • Статус: Reference proteome
  • Штамм: Thermoactinomyces vulgaris CICC 10650 / ACCC 41061
  • Количество белковых записей: 2 618
  • Полнота по BUSCO: 96% (C:96% [S:95.8% D:0.2%], F:0.4%, M:3.6%)
  • Представленность генома: Full

С помощью REST API UniProt были скачаны все белковые записи, принадлежащие этому протеому, в формате swiss. Для получения уже сжатого gzip-файла использовался параметр compressed=true.

UP000641910.swiss.gz

3. Оценка числа белков, содержащих альфа-спирали

Для анализа структуры белков был разработан конвейер команд bash, который подсчитывает количество записей в скачанном файле UP000641910.swiss.gz, содержащих аннотации об альфа-спиралях и трансмембранных участках.

В соответствии с документацией UniProt, в поле FT (Feature Table):

  • альфа-спирали обозначаются ключом HELIX
  • трансмембранные участки — ключом TRANSMEM

В процессе работы было установлено, что в файле строки FT имеют следующий формат:

  • FT HELIX (4 пробела между FT и HELIX)
  • FT TRANSMEM (1 пробел между FT и TRANSMEM)

Для надежного подсчета, не зависящего от количества пробелов, был использован универсальный awk-конвейер.

Листинг конвейера bash:

Подсчет записей с альфа-спиралями (HELIX) в поле FT

zcat ~/term2/pr8/UP000641910.swiss.gz | awk '/^ID / {id=$2} /^FT[ \t]+HELIX/ && id {helix[id]=1} END {print length(helix)}'


Подсчет записей с трансмембранными участками (TRANSMEM) в поле FT

zcat ~/term2/pr8/UP000641910.swiss.gz | awk '/^ID / {id=$2} /^FT[ \t]+TRANSMEM/ && id {transmem[id]=1} END {print length(transmem)}'

Результаты подсчета:

Анализ результатов:

В протеоме UP000641910 отсутствуют аннотации вторичной структуры в поле FT для ключей HELIX и TRANSMEM. Это не означает, что в белках данного организма нет альфа-спиралей или трансмембранных участков — они, безусловно, присутствуют. Отсутствие аннотаций объясняется тем, что:

  1. Поле HELIX заполняется преимущественно на основе экспериментально определенных структур (из PDB), которые для данного организма могут отсутствовать.
  2. Поле TRANSMEM в формате FT также может быть не заполнено, хотя ключевые слова (KW Transmembrane helix) указывают на наличие трансмембранных белков в протеоме.

Таким образом, полученные нулевые значения отражают не биологическую реальность, а неполноту аннотаций в данной версии протеома. Для более содержательного анализа следовало бы использовать протеом с более полной аннотацией (например, референсный протеом другого штамма или близкого вида).

4. Оценка количества ферментов в протеоме

Для оценки доли ферментов в протеоме UP000641910 были использованы два подхода, основанных на различных полях записей UniProtKB.

Первый подход:

Основан на наличии в записи номера фермента (EC number), который присваивается только белкам с доказанной ферментативной активностью и заносится в соответствующее поле.


Поисковый запрос (в базе UniProtKB):

(proteome:UP000641910) AND (ec:*)

Второй подход:

Использует наличие в комментариях (поле CC) описания каталитической активности (CATALYTIC ACTIVITY), которое может присутствовать у ферментов даже при отсутствии официального EC номера.


Поисковый запрос (в базе UniProtKB):

(proteome:UP000641910) AND (cc_catalytic_activity:*)

Результаты поиска:

Выполнив указанные запросы на сайте UniProt, были получены следующие результаты:

(proteome:UP000641910) AND (ec:*) - 667

(proteome:UP000641910) AND (cc_catalytic_activity:*) - 569

Сравнение и выводы:

Обе оценки являются приблизительными снизу, так как:

  1. Поле ec:* дает более формальную и строгую оценку, но не охватывает ферменты, у которых EC номер еще не присвоен.
  2. Поле cc_catalytic_activity:* может охватывать более широкий круг белков, но его наличие не является строго обязательным для всех ферментов.

Разница в полученных числах (если она есть) объясняется тем, что некоторые ферменты имеют текстовое описание каталитической активности, но формальный EC номер им еще не присвоен, или наоборот — EC номер присвоен, но текстовое описание отсутствует.

Наиболее полную оценку можно получить, объединив оба критерия:

(proteome:UP000641910) AND (ec:* OR cc_catalytic_activity:*)

Этот запрос позволит охватить белки, у которых есть хотя бы одно из двух свидетельств ферментативной активности, и даст более точную оценку числа ферментов в протеоме.