Практикум 8. UniProt Proteomes, EMBOSS

По заданию я нашла ссылку на страницу сборки в базе NCBI Datasets Genome — ссылку на страницу из базы NCBI Datasets Genome, которая соответствует сборке GCF_000021565.1.

Идентификаторы последней версии сборки:

В RefSeq: GCF_000021565.1

В INSDC: GCA_000021565.1

Далее я придумала поисковый запрос по UniProt Proteomes, который выдал протеом бактерии Persephonella marina — (genome_assembly:GCA_000021565.1), идентификатор протеома — UP000001366. Интересно, что статус протеома — Reference proteome. Это упрощает выполнение второго задания.

Я начала поиски с референсного протеома того же вида: (taxonomy_id:123214) AND (proteome_type:1). Оказалось, что протеом моей бактерии Persephonella marina является референсным. Чтобы найти белки, принадлежащие искомому протеому, я использовала запрос (xref:proteomes-UP000001366). Чтобы затем их скачать в папку ~/term2/pr8 в Bash я использовала команду wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(xref:proteomes-UP000001366)' -O UP000001366.swiss.gz.

Для подсчёта записей с альфа-спиралями или с трансмембранными участками я написала два конвейера в Bash. Конвейер (1) считает количество записей с трансмембранными участками (их получилось 411). Конвейер (2) считает количество записей с альфа-спиралями (их получилось 0)

(1) zgrep -e '^ID' -e '^FT' UP000001366.swiss.gz|grep -e '^ID' -e 'TRANSMEM'|grep -A1 '^ID'|grep '^FT'|wc -l

(2) zgrep -e '^ID' -e '^FT' UP000001366.swiss.gz|grep -e '^ID' -e 'HELIX'|grep -A1 '^ID'|grep '^FT'|wc -l

Результаты получились противоречивыми с биологической точки зрения, поскольку записей с ключами TRANSMEM получилось 411, а записей с ключами HELIX – 0. Это странно, поскольку трансмембранные участки сами по себе могут являться альфа-спиралями. Возможно, не хватает экспериментальных данных, чтобы учесть присутствие альфа-спиралей в белках бактерии Persephonella marina

Больше о причинах: при чтении описания ключей FT я обнаружила у них у всех пометку Unreviewed. Это может значить, что ключи TRANSMEM, возможно, добавляются автоматически, а вот для ключей HELIX это так не работает. Возможно, для ключей HELIX нужны экспериментальные данные, поскольку они составляют собой более узкую группу, чем ключи TRANSMEM.

Далее я искала количество белков с каталитической активностью. Мой первый запрос: (proteome:UP000001366) AND (ec:*). Я сделала его первым, поскольку код ec наверняка выдаёт верное количество белков-ферментов. В результате нашёлся 631 белок.

Потом я придумала второй запрос: (proteome:UP000001366) AND (protein_name:*ase). Это менее точный способ узнать количество белков-ферментов в протеоме, поскольку не у всех таких белков название заканчивается на -ase. Также у некоторых белков, которые не являются ферментами, название тоже заканчивается на -ase. Нашлось 919 результатов – это больше, чем по итогам прошлого поиска. Я думаю, результатов больше, потому что поиск менее точен (не всё, что заканчивается на -ase, — ферменты, то есть могли найтись не только ферменты). Я бы сказала, что первый результат ближе к правде и количество белков с каталитической активностью в референсном протеоме действительно 631. Также второй результат показывает, насколько ненадежно судить о функции белка лишь по его названию (получилось 288 лишних результатов)