UniProt Proteomes, EMBOSS

Поиск протеома, соответствующего геномной сборке

RefSeq ID: GCF_001434845.1
INSDC ID:GCA_001434845.1
Proteome ID:UP000051448
Реферненсный Proteome ID:UP000051131

По поисковому запросу GCA_001434845.1 был найден 1 протеом содержащий 2,183 белков.

К сожалению, нет референсного протеома для Liquorilactobacillus hordei DSM 19519 TaxID:1423759. Ближайший референсные протеом получилось найти только на уровне рода Liquorilactobacillus TaxID: 2767888. Был использван запрос taxonomy_id:475 Команда для скачивания протеома wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000051131)' -O UP000051131.swiss.gz

Поиск и скачивание референсного протеома

По запросу (proteome:UP000051131) AND (ec:*) в UniProtKB выдало 486 результатов. Bash конвейр zgrep '^CC' UP000051131.swiss.gz | grep -c 'CATALYTIC ACTIVITY' результат 509. В баше возможно больше из за того что в 1 описании белка может быть несколько раз написано 'CATALYTIC ACTIVITY'

Анализ протеома консольными средствами

Команда для поиска всех белков не начинающихся с метионина.
zcat UP000051131.swiss.gz | seqret -filter -auto | python script.py
Команда не нашла таких белков из этого делаем вывод что протеом должен обладать высокой достоверностью.


script.py

a = 0
b = []
s = ""
Flag = False

with open('seq', 'r') as f:
    for l in f:
        l = l.strip()
        if l[0]=='>':
            if s and s[0] != 'M':
                a += 1
                b.append(h)
            h = l
            s = ""
            Flag = True
        elif Flag and l:
            s += l

    if s[0] != 'M':
        a += 1
        b.append(h)

print(f"Количество белков, не начинающихся с M: {a}")
print("Заголовки этих белков:")
for i in b:
    print(i)