Практикум 8: Анализ протеома Rummeliibacillus stabekisii

В своем мини-обзоре бактерии Rummeliibacillus stabekisii я использовала геномную сборку GCF_001617605.1.

Ссылка на страницу сборки в базе NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_001617605.1/

Идентификаторы последней версии сборки:

Чтобы найти протеом в UniProt, соответствующий данной геномной сборке, был выставлен поисковый запрос в UniProt Proteomes: genome_assembly:GCA_001617605.1. В результате был найден протеом с идентификатором UP000076021, который оказался референсным геномом для данной бактерии.

2. Поиск и скачивание референсного протеома

Поскольку найденный выше протеом оказался референсным, я выбрала его для выполнения заданий. Поисковый запрос для этого протеома в UniProt Proteomes: (taxonomy_id:241244) AND (proteome_type:1).

Чтобы скачать необходимые белковые записи, принадлежащие данному протеому, использовался поисковый запрос в UniProtKB: proteome: UP000076021. Для их скачивания была использована команда:

curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000076021)' > UP000076021.swiss.gz

3. Оценка числа белков, содержащих альфа-спирали

Далее стояла задача оценить количество белков, содержащих альфа-спирали или трансмембранные участки. Для их подсчета был написан скрипт на Python:

import gzip

helix_proteins = 0
transmem_proteins = 0
helix = 0
transmem = 0

with gzip.open("~/term2/pr8/UP000076021.swiss.gz", "rt") as f:
    for line in f:
        if line.startswith("ID   "):
            helix = 0
            transmem = 0
        
        if line.startswith("FT   HELIX"):
            helix = 1
        
        if line.startswith("FT   TRANSMEM"):
            transmem = 1
        
        if line.startswith("//"):
            if helix == 1:
                helix_proteins += 1
            if transmem == 1:
                transmem_proteins += 1

print("Белков с альфа-спиралями:", helix_proteins)
print("Белков с трансмембранными участками:", transmem_proteins)

После выполнения команды были получены следующие результаты:

Данную оценку нельзя назвать удачной, потому что не было найдено ни одного фрагмента альфа-спирали, а трансмембранных участков, которые чаще всего представлены именно ими, найдено на три порядка больше.

Эти результаты возможно связать с тем, что трансмембранные участки и альфа-спирали аннотируются разными методами. Трансмембранный участок можно предсказать по длинному гидрофобному фрагменту последовательности, а для уверенного определения альфа-спиралей нужны более точные данные или специальные методы. По всей видимости, для этого протеома не хватило данных, чтобы надёжно подтвердить наличие альфа-спиралей, поэтому они пока не были внесены в итоговый файл Swiss-Prot.

4. Оценка количества ферментов в протеоме

Чтобы оценить, сколько ферментов содержит референсный протеом UP000076021 (всего 3235 записей), я выполнила несколько поисковых запросов в UniProt. В качестве наиболее прямых индикаторов ферментативной активности я использовала наличие EC-номера (ферментной классификации) и аннотации каталитической активности (cc_catalytic_activity).

Эти числа не совпадают, поэтому для выяснения причин и получения более точной оценки я решила задать дополнительные перекрёстные запросы.

Я также задалась вопросом: возможны ли ситуации, когда у белка есть EC-номер или описана каталитическая реакция, но при этом он не является ферментом? Оказалось, что, во-первых, это возможно в случае когда EC-номер и/или cc_catalytic_activity предсказаны алгоритмами, но в итоге не соответствуют предсказанию. Во-вторых, бывает, что поле cc_catalytic_activity заполено, но белок потерял свою функцию. В данном случае, в названии таких белков присутствует слово "inactive". Я решила проверить, есть ли подобные белки в анализируемом протеоме, используя поисковый запрос:(protein_name:inactive) AND (proteome:UP000076021) AND (cc_catalytic_activity:*). В данном протеоме таких записей обнаружено не было.

Таким образом, протеом содержит от 527 до 606 ферментов, что составляет примерно 16–19% от всех белков. Наиболее точной оценкой, на мой взгляд, следует считать 527, поскольку в данном случае есть оба подтверждения ферментативной активности. Это не исключает, того, что другие найденные белки точно не явялются ферментами, но просто в них мы чуть меньше уверены.

Но почему же возникает такая непопредленность в опредлении количества ферментов? Расхождения между разными оценками возникают по двум основным причинам. Во-первых, существует 67 белков, у которых есть EC-номер, но отсутствует описание каталитической активности. Как уже было отмечено ранее,в этих случаях EC вероятно был присвоен автоматически на основе гомологии с другими белками, а экспериментальные или литературные данные о реакции пока не добавлены в базу. Во-вторых, обнаружено 12 белков с описанием каталитической активности, но без EC-номера. Это может означать, что катализируемая реакция известна, но она является новой или нестандартной, поэтому ещё не включена в официальную EC-классификацию; либо же белок может проявлять несколько активностей, и присвоение конкретного EC-номера отложено до уточнения.