1. Поиск протеома, соответствующего геномной сборке Brucella canis ATCC 23365

Идентификатор сборки RefSeq: GCF_000018525.1

Ссылка на страницу из базы NCBI Datasets Genome:GCF_000018525.1

Идентификатор сборки INSDC: GCA_000018525.1

Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_000018525.1)

Идентификатор протеома: UP000001385

Статус: Other proteome

2. Поиск и скачивание референсного протеома

Для нахождения референсного протеома в Proteomes был сделан запрос, указывающий TaxID изучаемого вида бактерии: (taxonomy_id:36855), который выдал протеом, описанный выше и еще 21 избыточный протеом, которые нельзя использовать в качестве референсных. Родительским таксоном для Brucella canis, согласно базе Taxonomy, является род Brucella (taxonomy_id:234), для которого было найдено: Reference proteomes(6), Other proteomes(49), Redundant proteomes(817), Excluded proteomes(60). В рамках работы 1 семестра была изучена филогения рода Brucella, поэтому из 6 представленных референсных протеомов был выбран протеом Brucella abortus как наиболее близкородственной.

Status: Reference, Proteome ID: UP000002719, Organism: Brucella abortus (strain 2308), Taxon ID: 359391, Protein count: 3023, CPD: Standard, BUSCO: C:99.2% (S:99.2% D:0%) F:0.2% M:0.6%.

>
Результат выдачи
Рисунок 1. Результат выдачи
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000002719' -O UP000002719.swiss.gz

3. Оценка количества ферментов в протеоме

Для оценки количества ферментов в протеоме с помощью UniprotKB был сделан запрос на поиск белков с каталитической активностью в выбранном референсном протеоме (proteome:UP000002719) AND (go:0003824) - получено 1399 находок. При этом указанние класса фермента (ec:*) уменьшает количество находок до 953 (рис. 2), из чего можно понять, что не для всех белков, обладающих ферментативной активностью, указан класс фермента в формате "EC=_._._._"

Количественное соотношение ферментов разных классов
Рисунок 2. Количественное соотношение ферментов разных классов

С помощью команды bash найдено 917 строчек, в которых есть указание класса фермента, но полученное значение находок меньше, чем у UniProtKB, так как не считаются дублирующиеся строчки, так что в UniProtKB для одного белка, возможно, существует несколько его записей или белки выполняют одну и ту же функцию.

zgrep '^DE' UP000002719.swiss.gz | grep -e 'EC='| sort -u | wc -l

Поиск по окончанию слова 'ase' не даёт достоверного результата - 2177 строк, так как среди них содержатся записи белков, не являющихся ферментами, но их рекомендуемое название заканчивается на 'ase', например,

zgrep '^DE' UP000002719.swiss.gz | grep -e 'ase'| sort -u | wc -l

4. Анализ протеома консольными средствами

Посттрансляционная модификация — это ковалентная химическая модификация белка после его синтеза на рибосоме. В ряде случаев посттрансляционные модификации являются обязательным этапом созревания белка, в противном случае он оказывается функционально неактивным. Было бы интересно изучить, какие ПТМ встречаются в протеоме бактерии Brucella canis (UP000002719) и для чего они необходимы.

С помощью команды bash найдено 73 строчки, в которых есть указание на модифицированные аминокислотные остатки в белках, что составляет 2,4 % от всех белков протеома.

zcat UP000002719.swiss.gz | grep '^FT' | grep 'MOD_RES' | wc -l

Далее оставим только те строчки, которые содержат только название модификаций и отсортируем их по убыванию.

zcat UP000002719.swiss.gz | grep '^FT' | grep -A1 'MOD_RES' | sort | tail -n73 | cut -c28- | uniq -c | sort -r -n

Выясним названия белков, в которых встречаются 5 наиболее распространённых посттрансляционных модификаций с помощью комнады bash, где будем по очереди вводить названия этих модификаций, например:

zcat UP000002719.swiss.gz | grep -B100 '4-aspartylphosphate' | grep '^DE'

Составим таблицу встречаемости и функциональной значимости ПТМ (таблица 1).

Таблица 1. Встречаемость и функциональная значимость ПТМ
Кол-во Название модификации Пример белка Функция ПТМ/белка
23 4-aspartylphosphate Response regulator receiver protein CpdR Содержит receiver domain — консервативный домен с ключевым аспартатом, который фосфорилируется.

Фосфорилирование/дефосфорилирование CpdR контролирует его способность связываться с протеазами и направлять специфические белки, например клеточного цикла, на деградацию, таким образом, CpdR участвует в контроле протеолиза и клеточного цикла.
19 N6-(pyridoxal phosphate)lysine Glycine decarboxylase Пиридоксальфосфат (PLP) — активная форма витамина B6. В реакциях с аминокислотами PLP образует с ними основание Шиффа через альдегидную группу с аминогруппой аминокислоты, и при её декабоксилировании стабилизируя карбанионный интермедиат.

Катализирует декарбоксилирование глицина, далее компоненты глицинового мультиферментного комплекса превращают его в 5,10-метилентетрагидрофолат (важный донор одноуглеродных групп в клетке).
5 N6-carboxylysine Urease subunit alpha 1 Возможно, эта ПТМ влияет на поверностный заряд белка или образование дополнительных нековалентных взаимодействий.

Катализирует гидролиз мочевины до аммиака и углекислого газа, играя ключевую роль в азотистом обмене.
4 Phosphohistidine; by autocatalysis Blue-light-activated histidine kinase Данная ПТМ затрагивает гистидинкиназы — ферменты, относящиеся к системе двухкомпонентной сигнализации у бактерий (отвечают за восприятие внешних сигналов и передачу сигнала внутри клетки через фосфорилирование).

Активируется голубым светом (около 450-490 нм), служащим внешним сигналом, который запускает автокиназную активность фермента. Фосфат переносится на ответный регулятор, который изменяет экспрессию генов или другие клеточные процессы.
3 N5-methylglutamine Peptide chain release factor 1 Метилирование факторов транскрипции и трансляции, вероятно, способствует их функциональной регуляции.

RF1 — это белковый фактор, который участвует в терминации трансляции у прокариот. Его основная функция — распознавание стоп-кодонов в мРНК и обеспечение освобождения синтезированного полипептида от рибосомы.