Практикум 8. UniProt Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке

  1. >Сборка в базе NCBI Datasets Genome
  2. INSDC — GCA_000019565.1, RefSeq — GCF_000019565.1
  3. Поисковый запрос по UniProt Proteomes — (genome_assembly:GCA_000019565.1)
  4. Идентификатор протеома — UP000001734
  5. Статус — other proteome

2. Поиск и скачивание референсного протеома

Сначала я попробовал найти референсный протеом для своего штамма — Klebsiella variicola (strain 342), ввел следующий поисковый запрос: (taxonomy_id:507522) AND (proteome_type:1), запрос не выдал результатов. Далее решил поискать референсные протеомы для вида Klebsiella variicola, ввел запрос: (taxonomy_id:244366) AND (proteome_type:1), нашел 1 референсный протеом, его идентификатор — UP000789617 (что интересно, в базе данных UniProt указано, что в скором времени данный протеом утратит статус референсного)

3. Оценка числа белков, содержащих альфа-спирали

Искал ключи HELIX и TRANSMEM я при помощи bash, запускав следующие конвейеры: 1) "zcat UP000789617.swiss.gz | grep -e '^FT' -e '^//'| grep -e 'HELIX' -e '//' | grep -B 1 '//' | grep -c 'HELIX'", ключей HELIX найдено не было (также, как и ключей TURN и STRAND, которые обозначают иные типы вторичной структуры), 2) "zcat UP000789617.swiss.gz | grep -e '^FT' -e '^//'| grep -e 'HELIX' -e '//' | grep -B 1 '//' | grep -c 'TRANSMEM'" — для поиска ключа TRANSMEM, команда выдала 1125. Оценки не совсем удачные, имеется противоречие: обычно трансмембранные белки содержат большое количество альфа-спиралей, именно они зачастую пронизывают липидные мембраны. Поэтому если у белка имеются трансмембранные участки, с большой долей вероятности у него должны быть и альфа-спирали, то есть их число явно должно превышать 0. Но этому можно найти объяснение: информацию о вторичной структуре белка UniProt берет из PDB. В случае, если в PDB нет данных о последовательности белка, либо присутствуют координаты только для альфа-углеродов, либо для структуры, полученной методом ЯМР, представлено более одного набора координат, в UniProt записей о вторичной структуре не будет. Если ввести команду "zcat UP000789617.swiss.gz | grep 'PDB'", осуществляющую поик слова "PDB", то окажется, что ссылка на PDB есть только для одного белка — A0A0J4VP90_KLEVA (5GY3 в PDB).

4. Оценка количества ферментов в протеоме

Для анализа количества ферментов в протеоме, посчитаем сначала его размер: запрос (proteome:UP000001734) выдал число 5738. Я составил следующий поисковый запрос: ((protein_name:*ase) OR (cc_function:enzyme) OR (ec:*) OR (go:0003824)) AND (proteome:UP000001734), он выдал 2912 записей, в целом, я думаю что данный запрос охватывает большинство белков, которые реально обладают каталитической функцией и в соотвестсвующих записях на UniProt это было как то фиксировано. Можно модифицировать запрос, добавив поля Keyword для всех классов ферментов: ((cc_function:enzyme) OR (go:0003824) OR (ec:*) OR (protein_name:*ase) OR (keyword:KW-0808) OR (keyword:KW-0378) OR (keyword:KW-1278) OR (keyword:KW-0456) OR (keyword:KW-0436) OR (keyword:KW-0560) OR (keyword:KW-0413)) AND (proteome:UP000001734), результат получился тот же — 2912 записей. Я думаю, что моя оценка достаточно валидная, ферменты в связи с широким спектром их функций обычно занимают значительную часть протеома (в моем случае это 2912/5738 = 50,75%).