В мини-обзоре генома бактерии Aliivibrio fischeri была использована геномная сборка с ID GCF_000011805.1 в базе данных RefSeq. На странице геномной сборки в базе NCBI Datasets Genome указан идентификатор сборки INSDC GCA_000011805.1. Далее этот идентификатор был использован для поиска протеома в базе данных UniProt Proteomes (genome_assembly:GCA_000011805.1). Найденный протеом имеет идентификатор UP000000537, а также статус "Reference proteome".
Для скачивания этого протеома была написана следующая команда: curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000537)' > UP000000537.swiss.gz
zgrep '^FT' UP000000537.swiss.gz | grep -A1 'HELIX' | grep '/evidence' | uniq -c | wc -l
Для подсчета количества белков, содержащих во вторичной структуре альфа спирали были использованы ресурсы командной строки Linux (Листинг 1). Было посчитано 5 белков с альфа-спиралями. Чтобы проверить правильность данной оценки и посчитать количество белков с трансмембраннми доменами был написан скрипт на Python (Листинг 2). Были получены такие результаты: Trensmembrane: 900, Helix: 5. Исходя из этих данных можно сказать, что для этого протеома наличие трансмембранных участков не коррелирует с наличием альфа-спиралей у данного белка. Возможно это связано с тем, что для предсказания того, что структура будет трансмембранной необходимо посчитать сколько гидрофобных остатков аминокислот находится в этом участке, а для альфа-спирали нужно экспериментальное подтверждение структуры, что провести труднее.
import gzip
proteome = gzip.open('UP000000537.swiss.gz', 'r')
trans = helix = 0
t = h = 0
for line in proteome:
if line.startswith('//'):
if t:
trans += 1
if h:
helix += 1
t = 0
h = 0
elif line.startswith('FT'):
if 'TRANSMEM' in line:
t = 1
if 'HELIX' in line:
h = 1
proteome.close()
print(f"Trensmembrane: {trans}, Helix: {helix}")
Всего протеом содержит 3813 белков. С помощью поискового запроса в базе данных UniProtKB (proteome:UP000000537) AND (ec:*) было найдено 1280 белков с каталитической активностью. Также для оценки количества белков с ферментативной активностью может быть использован (proteome:UP000000537) AND (cc_function:*), при этом получается 1032 белка. Еще можно использовать поиск по KW (ключевое слово) для каждого класса: (proteome:UP000000537) AND ((ec:*) OR (keyword:KW-0378) OR (keyword:KW-0560) OR (keyword:KW-0808) OR (keyword:KW-0436) OR (keyword:KW-0456) OR (keyword:KW-0413) OR (keyword:KW-1278)). При таком запросе получается 1467 белков. Наиболее широко охватывает количество ферментов последний запрос, возможно параметры в поле ключевые слова могут быть предсказанными, поэтому охват получается выше чем у первого. При этом второй запрос является самым строгим и отражает, возможно, отражает белки с подтвержденной каталитической активностью и реакцией. В первом запросе скорее всего находятся белки с каталитической активностью, но некоторые из них не имеют в СС подтвержденного описания реакции.