RefSeq ID:
GCF_001434845.1
INSDC ID:GCA_001434845.1
Proteome ID:UP000051448
Реферненсный Proteome ID:UP000051131
По поисковому запросу GCA_001434845.1 был найден 1 протеом содержащий 2,183 белков.
К сожалению, нет референсного протеома для Liquorilactobacillus hordei DSM 19519 TaxID:1423759. Ближайший референсные протеом получилось найти только на уровне рода Liquorilactobacillus TaxID: 2767888. Был использван запрос taxonomy_id:475 Команда для скачивания протеома wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000051131)' -O UP000051131.swiss.gz
По запросу (proteome:UP000051131) AND (ec:*) в UniProtKB выдало 486 результатов. Bash конвейр zgrep '^CC' UP000051131.swiss.gz | grep -c 'CATALYTIC ACTIVITY' результат 509. В баше возможно больше из за того что в 1 описании белка может быть несколько раз написано 'CATALYTIC ACTIVITY'
Команда для поиска всех белков не начинающихся с метионина.
zcat UP000051131.swiss.gz | seqret -filter -auto | python script.py
Команда не нашла таких белков из этого делаем вывод что протеом должен обладать высокой достоверностью.
script.py a = 0 b = [] s = "" Flag = False with open('seq', 'r') as f: for l in f: l = l.strip() if l[0]=='>': if s and s[0] != 'M': a += 1 b.append(h) h = l s = "" Flag = True elif Flag and l: s += l if s[0] != 'M': a += 1 b.append(h) print(f"Количество белков, не начинающихся с M: {a}") print("Заголовки этих белков:") for i in b: print(i)