По заданию я нашла ссылку на страницу сборки в базе NCBI Datasets Genome -- https://www.uniprot.org/proteomes/UP000001366. Из таблицы геномных особенностей моей бактерии Persephonella marina я узнала, что GCA_000021565.1 – идентификатор последней версии сборки в INSDC, GCF_000021565.1 – в Refseq. Далее я придумала поисковый запрос по UniProt Proteomes, который выдал протеом бактерии Persephonella marina -- (genome_assembly:GCA_000021565.1), идентификатор протеома -- UP000001366. Интересно, что статус протеома -- Reference proteome. Это упрощает выполнение второго задания.
Я начала поиски с референсного протеома того же вида: (taxonomy_id:123214). Оказалось, что протеом моей бактерии Persephonella marina является референсным. Чтобы найти белки, принадлежащие искомому протеому, я использовала запрос(xref:proteomes-UP000001366). Чтобы затем их скачать в папку ~/term2/pr8 в Bash я использовала команду wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(xref:proteomes-UP000001366)' -O UP000001366.swiss.gz .
Для подсчёта белков с альфа-спиралями или с трансмембранными участками я написала два конвейера в Bash. Конвейер (1) считает количество белков с трансмембранными участками (их получилось 411). Конвейер (2) считает количество белков с альфа-спиралями (их получилось 0)
(1)zgrep -e '^ID' -e '^FT' UP000001366.swiss.gz|grep -e '^ID' -e 'TRANSMEM'|grep -A1 '^ID'|grep '^FT'|wc -l
(2)zgrep -e '^ID' -e '^FT' UP000001366.swiss.gz|grep -e '^ID' -e 'HELIX'|grep -A1 '^ID'|grep '^FT'|wc -l
Результаты получились противоречивыми с биологической точки зрения, поскольку трансмембранных участков получилось 411, а альфа-спиралей – 0. Это странно, поскольку трансмембранные участки сами по себе могут являться альфа-спиралями. Возможно, не хватает экспериментальных данных, чтобы учесть присутствие альфа-спиралей в белках бактерии Persephonella marina
Далее я искала количество белков с каталитической активностью. Мой первый запрос: (proteome:UP000001366) AND (ec:*). Я сделала его первым, поскольку код ec наверняка выдаёт верное количество белков-ферментов. В результате нашлёлся 631 белок.
Потом я придумала второй запрос: (proteome:UP000001366) AND (protein_name:*ase). Это менее точный способ узнать количество белков-ферментов в протеоме, поскольку не у всех таких белков название заканчивается на -ase. Также у некоторых белков, которые не являются ферментами, название тоже заканчивается на -ase. Нашлось 919 результатов – это больше, чем по итогам прошлого поиска.