В своем мини-обзоре бактерии Rummeliibacillus stabekisii я использовала геномную сборку GCF_001617605.1.
Ссылка на страницу сборки в базе NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_001617605.1/
Идентификаторы последней версии сборки:
Чтобы найти протеом в UniProt, соответствующий данной геномной сборке, был выставлен поисковый запрос в UniProt Proteomes: genome_assembly:GCA_001617605.1. В результате был найден протеом с идентификатором UP000076021, который оказался референсным геномом для данной бактерии.
Поскольку найденный выше протеом оказался референсным, я выбрала его для выполнения заданий. Поисковый запрос для этого протеома в UniProt Proteomes: (taxonomy_id:241244) AND (proteome_type:1).
Чтобы скачать необходимые белковые записи, принадлежащие данному протеому, использовался поисковый запрос в UniProtKB: proteome: UP000076021. Для их скачивания была использована команда:
curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000076021)' > UP000076021.swiss.gz
Далее стояла задача оценить количество белков, содержащих альфа-спирали или трансмембранные участки. Для их подсчета был написан скрипт на Python:
import gzip
helix_proteins = 0
transmem_proteins = 0
helix = 0
transmem = 0
with gzip.open("~/term2/pr8/UP000076021.swiss.gz", "rt") as f:
for line in f:
if line.startswith("ID "):
helix = 0
transmem = 0
if line.startswith("FT HELIX"):
helix = 1
if line.startswith("FT TRANSMEM"):
transmem = 1
if line.startswith("//"):
if helix == 1:
helix_proteins += 1
if transmem == 1:
transmem_proteins += 1
print("Белков с альфа-спиралями:", helix_proteins)
print("Белков с трансмембранными участками:", transmem_proteins)
После выполнения команды были получены следующие результаты:
Данную оценку нельзя назвать удачной, потому что не было найдено ни одного фрагмента альфа-спирали, а трансмембранных участков, которые чаще всего представлены именно ими, найдено на три порядка больше.
Эти результаты возможно связать с тем, что трансмембранные участки и альфа-спирали аннотируются разными методами. Трансмембранный участок можно предсказать по длинному гидрофобному фрагменту последовательности, а для уверенного определения альфа-спиралей нужны более точные данные или специальные методы. По всей видимости, для этого протеома не хватило данных, чтобы надёжно подтвердить наличие альфа-спиралей, поэтому они пока не были внесены в итоговый файл Swiss-Prot.
Чтобы оценить, сколько ферментов содержит референсный протеом UP000076021 (всего 3235 записей), я выполнила несколько поисковых запросов в UniProt. В качестве наиболее прямых индикаторов ферментативной активности я использовала наличие EC-номера (ферментной классификации) и аннотации каталитической активности (cc_catalytic_activity).
(proteome:UP000076021) AND (ec:*) дал 594 белка(proteome:UP000076021) AND (cc_catalytic_activity:*) — 539 белковЭти числа не совпадают, поэтому для выяснения причин и получения более точной оценки я решила задать дополнительные перекрёстные запросы.
(proteome:UP000076021) AND (ec:*) NOT (cc_catalytic_activity:*) — 67(proteome:UP000076021) AND (cc_catalytic_activity:*) NOT (ec:*) — 12(proteome:UP000076021) AND ((cc_catalytic_activity:*) OR (ec:*)) — 606(proteome:UP000076021) AND (cc_catalytic_activity:*) AND (ec:*) — 527Я также задалась вопросом: возможны ли ситуации, когда у белка есть EC-номер или описана каталитическая реакция, но при этом он не является ферментом? Оказалось, что, во-первых, это возможно в случае когда EC-номер и/или cc_catalytic_activity предсказаны алгоритмами, но в итоге не соответствуют предсказанию. Во-вторых, бывает, что поле cc_catalytic_activity заполено, но белок потерял свою функцию. В данном случае, в названии таких белков присутствует слово "inactive". Я решила проверить, есть ли подобные белки в анализируемом протеоме, используя поисковый запрос:(protein_name:inactive) AND (proteome:UP000076021) AND (cc_catalytic_activity:*). В данном протеоме таких записей обнаружено не было.
Таким образом, протеом содержит от 527 до 606 ферментов, что составляет примерно 16–19% от всех белков. Наиболее точной оценкой, на мой взгляд, следует считать 527, поскольку в данном случае есть оба подтверждения ферментативной активности. Это не исключает, того, что другие найденные белки точно не явялются ферментами, но просто в них мы чуть меньше уверены.
Но почему же возникает такая непопредленность в опредлении количества ферментов? Расхождения между разными оценками возникают по двум основным причинам. Во-первых, существует 67 белков, у которых есть EC-номер, но отсутствует описание каталитической активности. Как уже было отмечено ранее,в этих случаях EC вероятно был присвоен автоматически на основе гомологии с другими белками, а экспериментальные или литературные данные о реакции пока не добавлены в базу. Во-вторых, обнаружено 12 белков с описанием каталитической активности, но без EC-номера. Это может означать, что катализируемая реакция известна, но она является новой или нестандартной, поэтому ещё не включена в официальную EC-классификацию; либо же белок может проявлять несколько активностей, и присвоение конкретного EC-номера отложено до уточнения.