Для выбора белка я пользовался поиском по названию организма (Defluviicoccus vanus; organism_id:111831). По данному запросу удалось получить 3 383 белка. Чтобы выбрать хорошо аннотированный белок, я также выбрал соответсвующий фильтр (лучшим показателем был annotation score:4). Таким образом получилось сократить количество белков до 15. Просмотрев белки, я отсеял такие, у которых были какие-либо предупреждения (а именно об отсутствии консервативных остатков, для расспространения аннотации признака).
По итогу, я выбрал фермент под названием Bifunctional protein GlmU (бифункциональный фермент GlmU), включающий в себя UDP-N-acetylglucosamine pyrophosphorylase (уридиндифосфат-N-ацетилглюкозамин пирофосфорилаза) с альтернативным названием N-acetylglucosamine-1-phosphate uridyltransferase (N-ацетилглюкозамин-1-фосфат уридилтрансфераза) и Glucosamine-1-phosphate N-acetyltransferase (глюкозамин-1-фосфат N-ацетилтрансфераза).
Данный фермент был выбран в связи схорошей аннотированностью, а также из-за его красивой структуры (упорядоченные β-слои создают красивую спираль).
Рисунок 1. Интерактивная структура выбранного белка
Данный фермент катализирует две последние последовательные реакции в de novo пути биосинтеза UDP-N-ацетилглюкозамина (биохимический путь, при котором сложные молекулы синтезируются из простых предшественников (например, глюкозы, аминокислот, ацетата), а не из готовых компонентов, полученных из внешних источников или распада других соединений).
C-концевой домен катализирует перенос ацетильной группы с ацетил-кофермента A на глюкозамин-1-фосфат (GlcN-1-P), что приводит к образованию N-ацетилглюкозамин-1-фосфата (GlcNAc-1-P).
N-концевой домен затем катализирует превращение GlcNAc-1-P в UDP-GlcNAc путём переноса уридин-5'-монофосфата (из уридин-5'-трифосфата, UTP).
Таким образом, этот фермент осуществляет завершающие этапы синтеза UDP-GlcNAc, ключевого метаболита в биосинтезе клеточной стенки и гликозилирования белков.
Кластеры UniRef100 и UniRef90 содержат только сам исследуемый белок, что может говорить о его уникальности среди близзких родствеников и довольно высокой специфичности. Возможно ген был приобретён с помощью горизонтального переноса от неродственного организма.
В кластере UniRef50 количество белков оказалось равным 1168. Это может свидетельствовать о неплохой консервативности в мехнизме действия данного белка.
Сначала я решил поискать белки, с таким же названием гена (glmU) кодирующего его.
Поисковой запрос: (gene:glmU)
Рассуждения: Используя расширенный поиск по этому параметру, я получил 31 224 результата, что довольно много.
Поисковой запрос: (gene:glmU) AND (cc_function:"Catalyzes the last two sequential reactions in the de novo biosynthetic pathway for UDP-N-acetylglucosamine (UDP-GlcNAc).")
Рассуждения: Чтобы проверить, является ли этот белок консервативным, я решил добавить к уже имеющемуся запросу добавить ещё один: CC_Function (catalyzes the last two sequential reactions in the de novo biosynthetic pathway for UDP-N-acetylglucosamine (UDP-GlcNAc)). Добавив этот запрос количество результатов снизилось до 29 768, что говорит о том, что белок скорее всего является консервативным.
Поисковой запрос: (gene:glmU) AND (protein_name:"Glucosamine-1-phosphate N-acetyltransferase") AND (protein_name:"UDP-N-acetylglucosamine pyrophosphorylase") OR (protein_name:"Bifunctional N-acetylglucosamine-1-phosphate uridyltransferase/glucosamine-1-phosphate acetyltransferase")
Рассуждения: Ещё одним подтверждением того, что белок является консервативным может служить тот факт, что его функции (DE) у большинства белков совпадают. Сразу две функции (glucosamine-1-phosphate N-acetyltransferase; UDP-N-acetylglucosamine pyrophosphorylase; bifunctional N-acetylglucosamine-1-phosphate uridyltransferase/glucosamine-1-phosphate acetyltransferase) есть аж у 28 617 белка.
Поисковой запрос: (gene:glmU) NOT (protein_name:"Glucosamine-1-phosphate N-acetyltransferase") NOT (protein_name:"UDP-N-acetylglucosamine pyrophosphorylase") NOT (protein_name:"Bifunctional N-acetylglucosamine-1-phosphate uridyltransferase/glucosamine-1-phosphate acetyltransferase")
Рассуждения: Белков без обеих этих функций всего 1 412.
Чтобы узнать об уникальности и необхлдимости этого белка, я решил поискать его аналоги в своей бактерии (Defluviicoccus vanus). Для этого я использовал параметры OS (organism_id:111831) и KW расширенного поиска.
Поисковой запрос: (organism_id:111831) AND (keyword:"Multifunctional enzyme")
Рассуждения: Используя такой запрос, я получил всего 22 результата (1 из которых только предсказанный). Вероятнее всего исследуемые белок довольно уникален своей бифункциональностью и является довольно важным для бактерии. Наличие нескольких функций у белка может говорить о компактности генома или о специфических условиях обитания.
Поисковой запрос: (organism_id:111831) AND (keyword:"Cell wall biogenesis/degradation") AND (keyword:"Peptidoglycan synthesis")
Рассуждения: По этому запросу было получено 18 результатов, что также не слишком много. Данный белок явно играет важную роль в формировании клеточной стенки у бактерии (включая пептидогликановый слой).
По ходу изучения данного белка, меня заинтересовал тот факт, что он имеет два конца (N-terminal section и C-terminal section) отвечающих за разные функции. Всвязи с этим, я решил проверить наличие такой особенности у выше стоящих рангов.
Поисковой запрос: (taxonomy_id:28211) AND "In the C-terminal section; belongs to the transferase hexapeptide repeat family" AND "In the N-terminal section; belongs to the N-acetylglucosamine-1-phosphate uridyltransferase family"
Рассуждения: По данному запросу было найденно 4 768 результатов, что говорит о довольно хорошей распространённости такой особенности у альфапротеобактерий.
Поисковой запрос: (taxonomy_id:204441) AND "In the C-terminal section; belongs to the transferase hexapeptide repeat family" AND "In the N-terminal section; belongs to the N-acetylglucosamine-1-phosphate uridyltransferase family"
Рассуждения: Приблизившись на одну ступеньку ближе к виду моей бактерии (Rhodospirillales), я обнаружил, что количество белков со встреченной особенности сильно сократилось и составило всего 566 штук.
Поисковой запрос: (taxonomy_name:Rhodospirillaceae) AND "In the C-terminal section; belongs to the transferase hexapeptide repeat family" AND "In the N-terminal section; belongs to the N-acetylglucosamine-1-phosphate uridyltransferase family"
Рассуждения: В семействе Rhodospirillaceae, количество встреченных белков с такой особенность составило 156 штук.
Поисковой запрос: (taxonomy_id:111830) AND "In the C-terminal section; belongs to the transferase hexapeptide repeat family" AND "In the N-terminal section; belongs to the N-acetylglucosamine-1-phosphate uridyltransferase family"
Рассуждения: Опустившись до уровня рода Defluviicoccus количесвто таких белков и вовсе снизилось до 3, что очень мало, учитывая тот факт, что описано более 10 000 белков относящихся к представителям данного рода. Можно сделать вывод, что такая особенность довольно нехарактерно, и данный белок довольно уникален в таком представлении. Это может значит, что при его повреждении могут привести к гибели бактерии.
В описании данного белка указано, что он является гомотримером и подкрепляется это записью {ECO:0000256|HAMAP-Rule:MF_01631}. Здесь ECO:0000256 значит, что белок был предопределён моделью последовательности, а также вывод о том, что он является гомотримером был сделан автоматически, без эксперементальных подтверждений и без проверки людьми. Всвязи с этим не стоит на 100% доверять этой информации.
Также указано, что домен с 8 по 130 аминокислотный остаток пренадлежит семейству MobA-подобных NTP-трансфераз, которые участвуют в переносе нуклеозидтрифосфатов. Это подкрепляется записью /evidence="ECO:0000259|Pfam:PF12804". Она означает, что данная запись была сделана автоматически, но основывалась на надёжной информации взятой с Pfam, а также проверенной членном InterPro.
В файле о белке говорится, что он был получен из штамма Ben 114, что подтверждается записью {ECO:0000313|EMBL:QNT68609.1, ECO:0000313|Proteomes:UP000516369}. Она говорит о том, что данная информация была взята из базы данных EMBL, а также из протеома данного штама. Данная информация довольно достоверна.
Вероятнее всего корневым источником информации являлась статья 2001 года Structure of the Escherichia coli GlmU pyrophosphorylase and acetyltransferase active sites, опубликованная Olsen LR, Roderick SL