Database:Swiss-Prot ID:CIMA_LEPIN AC:Q8F3Q1 Version:145 Name:(R)-citramalate synthase CimA TaxID:189518 INSDC:AE010300; AAN49549.1 Length:516 MW:57319 |
L. interrogans использует пируватный путь синтеза изолейцина, и цитрамалат-синтаза бактерии катализирует первую реакцию этого пути: она превращает пируват и ацетил-КоА в (R)-цитрамалат.
acetyl-CoA + pyruvate + H2O ⇌ (3R)-citramalate + CoA + H+
Также цитрамалатсинтаза L. interrogans отличается высокой субстратной специфичностью по отношению к пирувату в сравнении с другими альфа-оксокислотами. Эта специфичность вероятно обусловлена остатками Leu(81), Leu(104) и Tyr(144), которые образуют гидрофобный карман для размещения С(2)-метильной группы пирувата.
Катализ протекает по типичной реакции альдольной конденсации, в которой Glu(146) действует как каталитическая основа для активации метильной группы ацетил-КоА с последующим образованием енолированного интермедиата ацетил-КоА, а стабилизация промежуточного продукта осуществляется за счет взаимодействия с Arg(16).
Активность регулируется конечным продуктом биосинтетического пути – изолейцином, посредством ингибирования по механизму обратной связи: связывание изолейцина оказывает ингибирующее действие на связывание как пирувата, так и ацетил-КоА.
Ген, кодирующий данный белок, называется cimA. Белок содержит 516 аминокислотных остатков.
Кластер UniRef100 содержит 6 записей, длина самой короткой составляет 426 аминокислотных остатков. Это значит, что выбранная мною последовательность хоть и не является уникальной, достаточно редка. И стоит отметить, что на таком уровне идентичности она встречается только у Leptospira interrogans.
Кластеры UniRef90 и UniRef50 содержат 74 и 93 записей соответственно. Можно сказать, что по сравнению с абсолютно идентичными белками незначительно отличающихся белков уже достаточно большое количество. Среди организмов кластера UniRef50 встречаются не только различные виды лептоспир, но и Victivallis lenta (хоть и в единственном экземпляре).
Я решила посмотреть, какие будут находки при поисковом запросе: (uniref_cluster_50:UniRef50_Q8F3Q1) NOT (uniref_cluster_90:UniRef90_Q8F3Q1). Ни одна из 19 обнаруженных последовательностей не принадлежит Leptospira interrogans. Все это говорит о том, что у Leptospira interrogans данная последовательность практически не менялась, то есть она достаточно консервативная (90-100% идентичности).
Если рассматривать последовательность с точки зрения эволюции, можно сказать, что данный белок характерен только для лептоспир (не считая единственной Victivallis lenta, все организмы в трёх кластерах были лептоспирами) и вероятно является уникальным приспособлением для синтеза изолейцина по пируватному пути.
Среди находок попадаются не только цитрамалат-синтазы, но поскольку абсолютно все последовательности во всех трёх кластерах, не считая репрезентативной, имеют Annotation score равный 1, это позволяет мне придерживаться точки зрения об уникальности и относительной консервативности выбранной мною последовательности.
UniRef100_Q8F3Q1 Size:6 Length:516 Name:(R)-citramalate synthase CimA UniRef90_Q8F3Q1 Size:74 Length:516 Name:(R)-citramalate synthase CimA UniRef50_Q8F3Q1 Size:93 Length:516 Name:(R)-citramalate synthase CimA |
Поисковый запрос (gene:cimA)
Результат: 2183 записи с этим названием гена. Пока что я не могу назвать этот белок (и его ген соответственно) очень распространенными, учитывая то, что по UniRef50 на лептоспир пришлось 92 записи, но он явно не настолько уникален, как казалось изначально.
Поисковый запрос (protein_name:"(R)-citramalate synthase")
Результат: 911записей. Теперь я с уверенностью могу сказать, что белок совершенно точно не консервативен и достаточно широко представлен. Однако было бы интересно оценить количество находок с таким же уровнем достоверности, как у выбранного мною белка.
Поисковый запрос (existence:1) AND (protein_name:"(R)-citramalate synthase")
Результат: 4 находки, включая выбранный белок, притом все организмы различаются, и ни одна из «новых» находок не попала в UniRef50, из чего можно сделать вывод о вариативности последовательности.
Поисковые запросы (gene:cimA) AND (taxonomy_id:2759) и (gene:cimA) AND (taxonomy_id:2157)
Результат: 5 записей с таким же названием гена среди эукариот и 248 среди архей.
Поисковые запросы (protein_name:"(R)-citramalate synthase") AND (taxonomy_id:2759) и (taxonomy_id:2157) AND (protein_name:"(R)-citramalate synthase")
Результат: 98 записей с таким же названием белка среди эукариот и 337 среди архей. Очевидно, что цикламат-синтаза чаще всего встречается у бактерий, затем у архей, и реже всего у эукариот. Однако она представлена во всех доменах.
В целом, такая существенная разница в выдаче поиска по названию гена и по названию его продукта наталкивает на мысль, что полагаться при поиске на один фильтр (отдавать предпочтению тому или иному фильтру) неразумно. Лучше посмотреть несколько и притом с различными комбинациями других фильтров.
Например у запроса (protein_name:"(R)-citramalate synthase") AND (gene:cimA) выдача составляет 270 последовательностей что почти на порядок меньше чем при простом фильтре (gene:cimA) с 2183 записями, и более чем в 3 раза меньше по сравнению с обычным (protein_name:"(R)-citramalate synthase"), где было 911 находок. Полагаясь на поиск по названию белка (вместо гена), можно упустить огромное количество данных (911 vs 2183), но и объединив их логической операцией «И», мы тоже потеряем данные.
(gene:cimA) AND protein_name:"(R)-citramalate synthase"): 270 записей
(gene:cimA) OR (protein_name:"(R)-citramalate synthase"): 2824 записи
(gene:cimA): 2183 записи
(protein_name:"(R)-citramalate synthase"): 911 записей