В первом семестре мы работали с Clostridium botulinum A str. ATCC 3502. В мини-обзоре использовали геномную сборку с ID GCF_000063585.1 из базы RefSeq.
Ссылка на страницу сборки в базе NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000063585.1/
📌 Идентификатор последней версии сборки в RefSeq: GCF_000063585.1
С помощью команды genome_assembly:GCA_000063585.1 в базе данных UniProt Proteoms был обнаружен единственный протеом с идентификатором UP000001986. Протеом имеет статус Reference proteome.
Чтобы найти референсный протеом для этой бактерии, вводим в поиск UniProt запрос:
Скачиваем файл с помощью команды в командной строке:
with gzip.open('UP000001986.swiss.gz', "rt") as file:
helix = 0
transmembrane = 0
for line in file:
if line.startswith("FT"):
if "HELIX" in line:
helix += 1
elif "TRANSMEM" in line:
transmembrane += 1
print(f'Количество альфа спиралей = {helix}, количество трансмембранных доменов = {transmembrane}')
Всего белков в протеоме 3 590 белков.
(proteome:UP000001986) AND (ec:*)
(proteome:UP000001986) AND (cc_function:enzyme)