В предыдущих работах использовалась геномная сборка бактерии Segotella Bryantii (Prevotella Bryantii), имеющая ID GCF_022024215.1 в базе данных RefSeq. На странице данной геномной сборки в NCBI Datasets Genome указан идентификатор сборки INSDC: GCA_022024215.1. Данный идентификатор был использован в поисковом запросе (genome_assembly:GCA_022024215.1) для поиска протеома бактерии в базе данных UniProt Proteomes. Поиск не выдал никаких результатов (ссылка). К сожелению, в Uniprot Proteomes отсутсвуют протеомы, соответствующие геномной сборке бактерии Prevotella Bryantii.
Так как протеом нужного штамма (TS1-5) не был найден, был выполнен поиск по таксону (запрос: (taxonomy_id:77095)), который дал (5 результатов). 4 из 5 протеомов являлись избыточными, пятый имел статус "Other proteome". Для одного избыточного протеома был указан CPD Close to standard (low value), для всех остальных - "Unknown". Среди результатов не было ни одного референсного протеома.
По запросу taxonomy_id:2974251, соответвующему роду Segatella, было найдено 10 референсных протеомов. Был выбран протеом бактерии Segatella hominis (BCRC 81118), поскольку для него указан CPD Close to standard (high value), и из данных протеомов он характеризуется второй по величине долей генов, определенной алгоритмом BUSCO как "Single" (99,4%). Протеом имеет ID UP000005141.
Команда для скачивания протеома:
curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000005141%29%29' > UP000005141.swiss.gz
Для создания команды скачивания протеома были выполнены следующие действия: нажать "скачать" на странице протеома, настроить параметры скачивания (формат: txt, сжатие: да), подставить получившийся URL в команду bash "curl 'URL' > AC.swiss.gz".
Для оценки количества обладающих ферментативной активностью белков из протеома Segatella Bryantii были использованы следующие запросы в базе данных UniProtKB:
(proteome:UP000005141) AND (ec:*)Получено 386 результатов.
(proteome:UP000005141) AND (cc_catalytic_activity:*)Получено 343 результата.
(proteome:UP000005141) AND ((ec:*) OR (cc_catalytic_activity:*))Получен 391 результат.
Интерпретация результатов: Меньшее количество белков по сравнению с количеством тех, что имеет в поле CC указание на "catalytic_activity" имеют запись в поле EC, это означает, что некоторые белки не были классифицированы по классам ферментов, но при этом у них была обнаружена каталитическая активность. 391 белок имеют какое либо упоминание о каталитической активности, и, по-моему мнению, этот результат наиболее достоверно из всех трёх запросов даёт понять о количестве белков с каталитической активностью в протеоме UP000005141.
zcat UP000005141.swiss.gz | grep '^DE' | grep 'EC=[^[:space:];]*' | wc -l
Был составлен конвеер, который был выводил количество (считал количество строк "wc -l"), которые начинаются с DE ("grep '^DE'") и содержат какие угодно значения в поле EC, это нужно для того, чтобы терминар показывал не только количество белков с числовым значением EC, но и такие как EC=Null или EC=NA.
Было найдено 389 таких белков, что очень близко к результам, полученным благодаря запросам на сайте, и такое число так же можно считать близким к настоящему количеству ферментов в протеоме.
Так как я знала, что моя бактерия обитает в рубце жвачных животных, мне стало интересно сравнить количество ферментов её протеома, расщепляющих полисахариды, с количеством таких в протеоме несвязанной с этим бактерии. Гликаназы - ферменты, которые посредством гидролиза расщепляют полисахариды, такие как крахмал, целлюлоза и тд.- относятся к ферментам класса 3.2.1.
Протеомом сравнения будет протеом бактерии Vibrio cholerae serotype O1 (strain ATCC 39315 / El Tor Inaba N16961), который имеет ID:UP000000584. Команда для скачивания протеома в командной строке:
curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000000584%29%29' > UP000000584.swiss.gz
Был составлен следующий конвеер, подсчитывающий количество ферментов класса 3.2.1:
zcat UP000005141.swiss.gz | grep 'EC=3.2.1.*' | wc -lИ для протеома сравнения соответственно:
zcat UP000000584.swiss.gz | grep 'EC=3.2.1.*' | wc -l
У Segatella oulorum оказалось 22 таких фермента, а у Vibrio cholerae - 18. Однако, так как протеом Vibrio cholerae больше, требуется пересчёт на проценты. Соответвенно, 0.886% и 0.476%. То есть у бактерии Segatella oulorum почти в два раза больше подобных белков в процентном соотношении, что доказывает наше предположение о специализации её протеома под место обитания.