Практикум №8

UniProt Proteomes, EMBOSS

В первом семестре мы работали с Clostridium botulinum A str. ATCC 3502. В мини-обзоре использовали геномную сборку с ID GCF_000063585.1 из базы RefSeq.

🧬 Поиск генома, соответствующего геномной сборке

Ссылка на страницу сборки в базе NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000063585.1/

📌 Идентификатор последней версии сборки в INSDC: GCA_000063585.1
📌 Идентификатор последней версии сборки в RefSeq: GCF_000063585.1

С помощью команды genome_assembly:GCA_000063585.1 в базе данных UniProt Proteoms был обнаружен единственный протеом с идентификатором UP000001986. Протеом имеет статус Reference proteome.

📥 Поиск и скачивание референсного протеома

Чтобы найти референсный протеом для этой бактерии, вводим в поиск UniProt запрос:

(taxonomy_id:441771) AND (proteome_type:1)

Скачиваем файл с помощью команды в командной строке:

curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&download=true&format=txt&query=(proteome:UP000001986)' > UP000001986.swiss.gz
📊 Оценка числа белков, содержащих альфа-спирали
import gzip

with gzip.open('UP000001986.swiss.gz', "rt") as file:
    helix = 0
    transmembrane = 0
    for line in file:
        if line.startswith("FT"):
            if "HELIX" in line:
                helix += 1
            elif "TRANSMEM" in line:
                transmembrane += 1

print(f'Количество альфа спиралей = {helix}, количество трансмембранных доменов = {transmembrane}')
43
альфа-спирали
4066
трансмембранных доменов
💡 Причина расхождения: трансмембранные участки предсказываются биоинформатическими методами (быстро и дёшево), а альфа-спирали требуют экспериментального подтверждения (медленно и дорого). Отсюда — заметный разрыв в количестве аннотаций.
🧪 Оценка количества ферментов в протеоме

Всего белков в протеоме 3 590 белков.

761
белков с каталитической активностью
(proteome:UP000001986) AND (ec:*)
37
результатов
(proteome:UP000001986) AND (cc_function:enzyme)