Практикум 8

1. Поиск протеома, соответствующего геномной сборке

В мини-обзоре для бактерии Listeria innocua Clip11262 использовалась геномная сборка NCBI RefSeq GCF_000195795.1

Ссылка на страницу из базы NCBI Datasets Genome, которая соответствует сборке GCF_000195795.1

Идентификаторы последней версии сборки:

• RefSeq: GCF_000195795.1

• INSDC (GenBank): GCA_000195795.1

В UniProt Proteomes по запросу (genome_assembly:GCA_000195795.1) получаем протеом с ID: UP000002513 . Его статус в базе данных — Other proteome. Данный протеом не является избыточным.

2. Поиск и скачивание референсного протеома

Сначала я проверила наличие референсного протеома для своего штамма Listeria innocua Clip11262 (TaxID 272626) с запросом (taxonomy_id:272626) AND (proteome_type:1). Оказалось, что для данного штамма референсных протеомов нет. Затем я проверила для вида Listeria innocua (TaxID 1642) с запросом (taxonomy_id:1642) AND (proteome_type:1) . Был найден референсный протеом UP000003597 (штамм ATCC 33091). Он и был выбран как наиболее близкий.

Для скачивания белковых записей, принадлежащих данному протеому была использована команда:

curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000003597)' > UP000003597.swiss.gz

3.Оценка числа белков, содержащих альфа-спирали

Подсчет белков, содержащих альфа-спирали проводился с использованием кода на Python, который показал, что ключ TRANSMEM встречается в 692 записях, а записи с ключом HELIX в поле FT отсутствуют. Данные результаты противоречат представлениям, согласно которым большинство трансмембранных участков формируются альфа-спиралями.

Это позволило выявить несколько возможных причин, объясняющих столь значительное расхождение между количеством записей с HELIX и TRANSMEM:

1) Возможно, ключ TRANSMEM добавляется автоматически, а ключ HELIX вносится при наличии экспериментальных данных. Поэтому если протеом не явяляется востребованным или плохо изучен, то ключей HELIX будет мало
2) База Swiss-Prot является курируемой, поэтому можно преположить, что кураторы могут фокусироваться на наиболее значимых и хорошо изученных белках, поэтому даже если белок содержит альфа-спирали, соответствующий ключ мог быть не добавлен.
3) Может быть, что трансмембранная локализация важнее для функциональной аннотации, чем вторичная структура, поэтому TRANSMEM добавляется с большей частотой, чем HELIX.

4. Оценка количества ферментов в протеоме

При помощи поисковых запросов в базе UniProtKB был проведен анализ количества белков, обладающих ферментативной активностью, в протеоме UP000003597.

1) (proteome:UP000003597) AND (EC:*) - 627 белков
2) (proteome:UP000003597) AND (protein_name:*ase) - 1293 белков

В результате анализа двумя поисковыми запросами были получены сильно различающиеся оценки количества ферментов. Оценка по названию дала результат более близкий к истине, так как примерное значение ферментов у бактерии Listeria innocua Clip11262 находится около 1500-1600 ( так как в статье [1] сказано, что у рассматриваемой бактерии 2973 белок-кодирующих генов, 63% белков имеют присвоенную функцию, среди которых преобладают белки с ферментативной активностью), однако данная оценка не является строгой, так как не все ферменты имеют окончание "-ase", а некоторые белки с окончанием "-ase" ферментами не являются. Результат оценки по EC в 2 раза меньше предыдущего, это может быть связано с тем, что EC присвоены не всем ферментам (возможно, EC номера отсутствуют у плохо изученных или недавно открытых белков).

[1] Glaser P. et al. Comparative genomics of Listeria species //Science. – 2001. – Т. 294. – №. 5543. – С. 849-852.