Идентификатор сборки RefSeq: GCF_000018525.1
Ссылка на страницу из базы NCBI Datasets Genome:GCF_000018525.1
Идентификатор сборки INSDC: GCA_000018525.1
Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_000018525.1)
Идентификатор протеома: UP000001385
Статус: Other proteome
Для нахождения референсного протеома в Proteomes был сделан запрос, указывающий TaxID изучаемого вида бактерии: (taxonomy_id:36855), который выдал протеом, описанный выше и еще 21 избыточный протеом, которые нельзя использовать в качестве референсных. Родительским таксоном для Brucella canis, согласно базе Taxonomy, является род Brucella (taxonomy_id:234), для которого было найдено: Reference proteomes(6), Other proteomes(49), Redundant proteomes(817), Excluded proteomes(60). В рамках работы 1 семестра была изучена филогения рода Brucella, поэтому из 6 представленных референсных протеомов был выбран протеом Brucella abortus как наиболее близкородственной.
Status: Reference, Proteome ID: UP000002719, Organism: Brucella abortus (strain 2308), Taxon ID: 359391, Protein count: 3023, CPD: Standard, BUSCO: C:99.2% (S:99.2% D:0%) F:0.2% M:0.6%.
>
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000002719' -O UP000002719.swiss.gz
Для оценки количества ферментов в протеоме с помощью UniprotKB был сделан запрос на поиск белков с каталитической активностью в выбранном референсном протеоме (proteome:UP000002719) AND (go:0003824) - получено 1399 находок. При этом указанние класса фермента (ec:*) уменьшает количество находок до 953 (рис. 2), из чего можно понять, что не для всех белков, обладающих ферментативной активностью, указан класс фермента в формате "EC=_._._._"
С помощью команды bash найдено 917 строчек, в которых есть указание класса фермента, но полученное значение находок меньше, чем у UniProtKB, так как не считаются дублирующиеся строчки, так что в UniProtKB для одного белка, возможно, существует несколько его записей или белки выполняют одну и ту же функцию.
zgrep '^DE' UP000002719.swiss.gz | grep -e 'EC='| sort -u | wc -l
Поиск по окончанию слова 'ase' не даёт достоверного результата - 2177 строк, так как среди них содержатся записи белков, не являющихся ферментами, но их рекомендуемое название заканчивается на 'ase', например,
zgrep '^DE' UP000002719.swiss.gz | grep -e 'ase'| sort -u | wc -l
Посттрансляционная модификация — это ковалентная химическая модификация белка после его синтеза на рибосоме. В ряде случаев посттрансляционные модификации являются обязательным этапом созревания белка, в противном случае он оказывается функционально неактивным. Было бы интересно изучить, какие ПТМ встречаются в протеоме бактерии Brucella canis (UP000002719) и для чего они необходимы.
С помощью команды bash найдено 73 строчки, в которых есть указание на модифицированные аминокислотные остатки в белках, что составляет 2,4 % от всех белков протеома.
zcat UP000002719.swiss.gz | grep '^FT' | grep 'MOD_RES' | wc -l
Далее оставим только те строчки, которые содержат только название модификаций и отсортируем их по убыванию.
zcat UP000002719.swiss.gz | grep '^FT' | grep -A1 'MOD_RES' | sort | tail -n73 | cut -c28- | uniq -c | sort -r -n
Выясним названия белков, в которых встречаются 5 наиболее распространённых посттрансляционных модификаций с помощью комнады bash, где будем по очереди вводить названия этих модификаций, например:
zcat UP000002719.swiss.gz | grep -B100 '4-aspartylphosphate' | grep '^DE'
Составим таблицу встречаемости и функциональной значимости ПТМ (таблица 1).
Кол-во | Название модификации | Пример белка | Функция ПТМ/белка |
---|---|---|---|
23 | 4-aspartylphosphate | Response regulator receiver protein CpdR | Содержит receiver domain — консервативный домен с ключевым аспартатом, который фосфорилируется. Фосфорилирование/дефосфорилирование CpdR контролирует его способность связываться с протеазами и направлять специфические белки, например клеточного цикла, на деградацию, таким образом, CpdR участвует в контроле протеолиза и клеточного цикла. |
19 | N6-(pyridoxal phosphate)lysine | Glycine decarboxylase | Пиридоксальфосфат (PLP) — активная форма витамина B6. В реакциях с аминокислотами PLP образует с ними основание Шиффа через альдегидную группу с аминогруппой аминокислоты, и при её декабоксилировании стабилизируя карбанионный интермедиат. Катализирует декарбоксилирование глицина, далее компоненты глицинового мультиферментного комплекса превращают его в 5,10-метилентетрагидрофолат (важный донор одноуглеродных групп в клетке). |
5 | N6-carboxylysine | Urease subunit alpha 1 | Возможно, эта ПТМ влияет на поверностный заряд белка или образование дополнительных нековалентных взаимодействий. Катализирует гидролиз мочевины до аммиака и углекислого газа, играя ключевую роль в азотистом обмене. |
4 | Phosphohistidine; by autocatalysis | Blue-light-activated histidine kinase | Данная ПТМ затрагивает гистидинкиназы — ферменты, относящиеся к системе двухкомпонентной сигнализации у бактерий (отвечают за восприятие внешних сигналов и передачу сигнала внутри клетки через фосфорилирование). Активируется голубым светом (около 450-490 нм), служащим внешним сигналом, который запускает автокиназную активность фермента. Фосфат переносится на ответный регулятор, который изменяет экспрессию генов или другие клеточные процессы. |
3 | N5-methylglutamine | Peptide chain release factor 1 | Метилирование факторов транскрипции и трансляции, вероятно, способствует их функциональной регуляции. RF1 — это белковый фактор, который участвует в терминации трансляции у прокариот. Его основная функция — распознавание стоп-кодонов в мРНК и обеспечение освобождения синтезированного полипептида от рибосомы. |