Практикум 7. UniProt

1. Выбор белка

С помощью расширенного поиска на сайте UniProt мною было найдено 3678 записей о белковых последовательностях бактерии Leptospira interrogans serovar Lai str. 56601, которой посвящен миниобзор. По поисковому запросу: (taxonomy_id: 189518), можно найти все записи последовательностей данного организма. Для выполнения практикума был выбран белок (R)-citramalate synthase CimA (цитрамалат-синтаза). Запись относится к базе данных Swiss-Prot, следовательно белок аннотирован и подходит для выполнения практикума.

На чем основывается мой выбор? Большое количество находок по taxonomy_id позволило мне предположить, что даже при выборе характеристики Protein existence: Evidence at protein level тоже что-то найдется. Protein existence: Evidence at protein level. Данная запись означает, что существование данного белка подтверждено экспериментально, то есть это высший уровень достоверности.

Из 16 находок я выбрала ту, что отличалась наибольшим Annotation score: 5/5 (у всех последующих находок вниз по списку скор равнялся 4 или меньше).

Database:Swiss-Prot
ID:CIMA_LEPIN
AC:Q8F3Q1
Version:145
Name:(R)-citramalate synthase CimA 
TaxID:189518
INSDC:AE010300; AAN49549.1 
Length:516
MW:57319 

2. Информация о белке

L. interrogans использует пируватный путь синтеза изолейцина, и цитрамалат-синтаза бактерии катализирует первую реакцию этого пути: она превращает пируват и ацетил-КоА в (R)-цитрамалат.

acetyl-CoA + pyruvate + H2O ⇌ (3R)-citramalate + CoA + H+

Также цитрамалатсинтаза L. interrogans отличается высокой субстратной специфичностью по отношению к пирувату в сравнении с другими альфа-оксокислотами. Эта специфичность вероятно обусловлена остатками Leu(81), Leu(104) и Tyr(144), которые образуют гидрофобный карман для размещения С(2)-метильной группы пирувата.

Катализ протекает по типичной реакции альдольной конденсации, в которой Glu(146) действует как каталитическая основа для активации метильной группы ацетил-КоА с последующим образованием енолированного интермедиата ацетил-КоА, а стабилизация промежуточного продукта осуществляется за счет взаимодействия с Arg(16).

Активность регулируется конечным продуктом биосинтетического пути – изолейцином, посредством ингибирования по механизму обратной связи: связывание изолейцина оказывает ингибирующее действие на связывание как пирувата, так и ацетил-КоА.

Ген, кодирующий данный белок, называется cimA. Белок содержит 516 аминокислотных остатков.

3. Кластеры похожих белков

Кластер UniRef100 содержит 6 записей, длина самой короткой составляет 426 аминокислотных остатков. Это значит, что выбранная мною последовательность хоть и не является уникальной, достаточно редка. И стоит отметить, что на таком уровне идентичности она встречается только у Leptospira interrogans.

Кластеры UniRef90 и UniRef50 содержат 74 и 93 записей соответственно. Можно сказать, что по сравнению с абсолютно идентичными белками незначительно отличающихся белков уже достаточно большое количество. Среди организмов кластера UniRef50 встречаются не только различные виды лептоспир, но и Victivallis lenta (хоть и в единственном экземпляре).

Я решила посмотреть, какие будут находки при поисковом запросе: (uniref_cluster_50:UniRef50_Q8F3Q1) NOT (uniref_cluster_90:UniRef90_Q8F3Q1). Ни одна из 19 обнаруженных последовательностей не принадлежит Leptospira interrogans. Все это говорит о том, что у Leptospira interrogans данная последовательность практически не менялась, то есть она достаточно консервативная (90-100% идентичности).

Если рассматривать последовательность с точки зрения эволюции, можно сказать, что данный белок характерен только для лептоспир (не считая единственной Victivallis lenta, все организмы в трёх кластерах были лептоспирами) и вероятно является уникальным приспособлением для синтеза изолейцина по пируватному пути.

Среди находок попадаются не только цитрамалат-синтазы, но поскольку абсолютно все последовательности во всех трёх кластерах, не считая репрезентативной, имеют Annotation score равный 1, это позволяет мне придерживаться точки зрения об уникальности и относительной консервативности выбранной мною последовательности.

UniRef100_Q8F3Q1 
Size:6
Length:516
Name:(R)-citramalate synthase CimA

UniRef90_Q8F3Q1 
Size:74
Length:516
Name:(R)-citramalate synthase CimA

UniRef50_Q8F3Q1 
Size:93
Length:516
Name:(R)-citramalate synthase CimA 

4. Поисковые запросы

Поисковый запрос (gene:cimA)

Результат: 2183 записи с этим названием гена. Пока что я не могу назвать этот белок (и его ген соответственно) очень распространенными, учитывая то, что по UniRef50 на лептоспир пришлось 92 записи, но он явно не настолько уникален, как казалось изначально.

Поисковый запрос (protein_name:"(R)-citramalate synthase")

Результат: 911записей. Теперь я с уверенностью могу сказать, что белок совершенно точно не консервативен и достаточно широко представлен. Однако было бы интересно оценить количество находок с таким же уровнем достоверности, как у выбранного мною белка.

Поисковый запрос (existence:1) AND (protein_name:"(R)-citramalate synthase")

Результат: 4 находки, включая выбранный белок, притом все организмы различаются, и ни одна из «новых» находок не попала в UniRef50, из чего можно сделать вывод о вариативности последовательности.

Поисковые запросы (gene:cimA) AND (taxonomy_id:2759) и (gene:cimA) AND (taxonomy_id:2157)

Результат: 5 записей с таким же названием гена среди эукариот и 248 среди архей.

Поисковые запросы (protein_name:"(R)-citramalate synthase") AND (taxonomy_id:2759) и (taxonomy_id:2157) AND (protein_name:"(R)-citramalate synthase")

Результат: 98 записей с таким же названием белка среди эукариот и 337 среди архей. Очевидно, что цикламат-синтаза чаще всего встречается у бактерий, затем у архей, и реже всего у эукариот. Однако она представлена во всех доменах.

В целом, такая существенная разница в выдаче поиска по названию гена и по названию его продукта наталкивает на мысль, что полагаться при поиске на один фильтр (отдавать предпочтению тому или иному фильтру) неразумно. Лучше посмотреть несколько и притом с различными комбинациями других фильтров.

Например у запроса (protein_name:"(R)-citramalate synthase") AND (gene:cimA) выдача составляет 270 последовательностей что почти на порядок меньше чем при простом фильтре (gene:cimA) с 2183 записями, и более чем в 3 раза меньше по сравнению с обычным (protein_name:"(R)-citramalate synthase"), где было 911 находок. Полагаясь на поиск по названию белка (вместо гена), можно упустить огромное количество данных (911 vs 2183), но и объединив их логической операцией «И», мы тоже потеряем данные.

(gene:cimA) AND protein_name:"(R)-citramalate synthase"): 270 записей

(gene:cimA) OR (protein_name:"(R)-citramalate synthase"): 2824 записи

(gene:cimA): 2183 записи

(protein_name:"(R)-citramalate synthase"): 911 записей