На главную

UniProt

L-threonine 3-dehydrogenase

Thermococcus kodakarensis KOD1

UniProt ID TDH_THEKO
UniProt AC Q5JI69
RefSeq ID WP_011249867.1
PDB ID 3GFB
RecName (Full) L-threonine 3-dehydrogenase
RecName (Short) TDH
Protein length (AA) 350
Molecular weight 38101
Thermococcus kodakarensis KOD1 - гипертермофильная анаэробная морская архея, способная жить при необычно высоких солености и температуре (оптимум - 85 градусов). Являясь облигатным анаэробом она использует серу в качестве акцептора электронов и продуцирует сероводород, а в отсутствие серы - водород.
L-треонин 3-дегидрогеназа - Zn зависимая дегидрогеназа спиртов, осуществляющая превращение: L-threonine + NAD(+) = L-2-amino-3-oxobutanoate + NADH, являющееся первой стадией катаболического пути треонина. Белок работает как гомотетрамер, каждая субъединица которого содержит 2 иона Zn2+, один из которых участвует в катализе реакции окисления треонина, а второй важен для взаимодействия субъединиц. Каталитический атом Zn2+ координируется в структуре молекулы белка цистеинами и гистидинами. В качестве акептора электронов при реакции окисления треонина испольнуется молекула НАД+, связываемая белком при помощи находящейся на C конце белка бета-листовой структуры - укладки Россмана. помимо этого, согласно данным InterPro данный белок на N конце имеет GroEs подобную структуру - незамкнутый бета бочонок, что весьма необычно, если принять во внимание то, что GroEs белки являются шаперонинами и участвуют в энергозависимом фолдинге белков. Структуры незамкнутых бета - бочонков представлены на изображениях, полученных при помощи Jmol. Так как данный фермент относится к классу Zn2+ содержащих дегидрогеназ спиртов, этот ион принимает непосредственное участие в каталзе химической реакции. Он выступает в качестве кислоты льюиса и перетягивает пару электронов связи О-Н на себя, выпуская протон в среду, это облегчает переход пары электронов с атома углерода треонина на окисленный НАД, а пара электронов вновь возвращается цинком кислороду. Рис.1 Общий вид треониндегидрогеназы, субъединицы гомотетрамера покрашены разными цветами, показан НАД
Рис.2 Укладка Россмана - домен для связывания НАД
Рис.3 Незамкнутый бета - бочонок в структуре GroES
Рис.5 Механизм треониндегидрогеназной реакции Рис.4 Незамкнутый бета - бочонок в структуре TDH

Кластеры UniRef

Идентификатор кластера Характеристика кластера Особенности выделения кластера
UniRef100_Q5JI69 Кластер содержит только сам организм Thermococcus kodakarensis KOD1 Это поседовательности из базы данных UniProtKB и UniPark (которых нет в UniProtKB и которые имеют ссылки на RefSeq и PDB) длиной более 11 аминокислот, идентичные друг другу.
UniRef90_Q5JI69 Все организмы принадлежат роду Thermococcus. 2 из Swiss-Prot 15 - TrEMBL и 6 - UniParc Это кластеризуемые последовательности из UniRef100, у которых минимум 90% последовательности идентично и минимум 80% - перекрывается с наиболее длинной последовательостью.
UniRef50_O58389 93 - UniParc, 5 - Swiss-prot, TrEMBL - 110. В этот кластер входят не только археи, но и бактерии, при этом часть этих бактерий и архей являются гипертермофильными, галофильными или алкалофильными, то есть экстремофилами, как и сам Thermococcus kodakarensis. Это подтверждает довольно логичное заключение о том, что белки, возникшие в процессе эволюции в похожих условиях имеют большее сходство в последовательности. Подтверждения этому можно найти в таблице ниже, где для некоторых видов из кластера представлено подтверждение их экстремофильности. Это кластеризуемые последовательности из UniRef90, у которых минимум 50% последовательности идентично и минимум 80% - перекрывается с наиболее длинной последовательностью.
Ardenticatena maritima
Bacillus chagannorensis
Bacillus cihuensis
Bacillus loiseleuriae
Caldisericum exile AZM16c01
Chthonomonas calidirosea
Exiguobacterium alkaliphilum
Exiguobacterium profundum
Halobacillus dabanensis
Halobacillus mangrovi
Halobacillus salinus

Поиск по UniProt

Запрос Результаты поиска Цель поиска Комментарий
name:"l threonine 3 dehydrogenase" 188 - Swiss-Prot, TrEMBL - 6178, всего 6366 Поиск по рекомендованному названию своего белка (полному) -
name:tdh TrEMBL - 3556, 197 - Swiss-Prot, всего 3753 Поиск по рекомендованному названию своего белка (краткому) По запросу находится также Serine dehydratase, так как этот фермент способен дегидратировать как серин так и треонин и одно из альтернативных имен - треониндегидратаза TDH. Также запрос выдает Tartrate dehydrogenase, что так же можно записать как TDH в графе altname.
name:tdh organism:"thermococcus kodakarensis" Поиск по названию среди белков своего организма Один, исследуемый мной белок Thermococcus kodakarensis из Swiss-Prot -
name:tdh organism:"thermococcus kodakarensis strain atcc baa 918 jcm 12380 kod1" Поиск по названию среди белков своего организма Один, исследуемый мной белок Thermococcus kodakarensis из Swiss-Prot -
name:"l threonine 3 dehydrogenase" organism:"thermococcus kodakarensis strain atcc baa 918 jcm 12380 kod1" Поиск по названию среди белков своего организма Один, исследуемый мной белок Thermococcus kodakarensis из Swiss-Prot -
name:"l threonine 3 dehydrogenase" organism:"thermococcus kodakarensis" Поиск по названию среди белков своего организма Один, исследуемый мной белок Thermococcus kodakarensis из Swiss-Prot -
name:"l threonine 3 dehydrogenase" taxonomy:thermococcaceae Поиск по названию среди белков семейства 5 - Swiss-Prot, 34 - TrEMBL, всего 39 -
name:tdh taxonomy:thermococcaceae Поиск по названию среди белков семейства 5- Swiss-Prot 23 -TrEMBL, всего 28 *Относительно предыдущего запроса белков стало меньше (причем стало меньше за счет белков из TrEMBL), так как короткое имя в TrEMBL для белка записано не всегда, а если и записано, то в поле GN, что не дает нам их обнаружить при помощи функции name.
name:"l threonine 3 dehydrogenase" taxonomy:euryarchaeota Поиск по названию среди белков отдела 5- Swiss-Prot, 136 -TrEMBL, всего 149 -
name:tdh taxonomy:euryarchaeota Поиск по названию среди белков отдела 5- Swiss-Prot 27 -TrEMBL, всего 32 Аналогично *
name:homeobox Поиск по названию домена 1396- Swiss-Prot, 42616 -TrEMBL, всего - 44012 -
name:homeobox taxonomy:fungi Поиск по названию домена среди царства грибов 18- Swiss-Prot, 1339-TrEMBL,всего - 1357 -
name:homeobox taxonomy:viridiplantae Поиск по названию домена среди царства зеленых растений 225- Swiss-Prot, 7138 -TrEMBL, всего -7363 -
name:trypsin Поиск по названию 311 - Swiss-Prot, 18640-TrEMBL, всего - 18951 -
name:trypsin name:inhibitor Поиск по названию 210- Swiss-Prot, 3704-TrEMBL, всего - 3914 -

История изменения записи UniProt

Первая запись появилась в 2005-02-15 в базе данных TrEMBL, и носило Entry name Q5JI69_PYRKO и ныне существующий AC Q5JI69. Последовательность белка и по сей день используется та самая, которая была получена для первой записи про TDH. В первом файле содержалось довольно мало информации: последовательность белка и ссылка на исходную нуклеотидную последовательность, секвенированную 01.05.2005, молекулярная масса, длина белка, таксономия организма. Следующая запись была сделана 2005-03-15 и она уже содержала информацию о кофакторах, каталитической активности, связываемых ионах металлов и имела ссылки на InterPro, Pfam, ProDom и др (и была описана как член белкового семейства, и как родственная GroES). Далее вплоть до обновления 2005-06-07 в файл в основном добавлялись ссылки на новые базы данных. А в этом обновлении база данных TrEMBL сменилась на Swiss-Prot была добавлена основанная на предсказаниях (по похожести на другие треониндегидрогеназы) информация о взаимодействиях аминокислотных остатков с ионами металлов, Entry name сменилось на TDH_PYRKO и появилась действующая ныне классификация по ЕС. Вплоть до редакции 2010-08-10 в основном добавлялись ссылки на другие базы данных, а в этой редакции появилось описание вторичной структуры, ассоциированной с аминокислотными интервалами (несмотря на это, ссылка на вторичную структуру в PDB была добавлена раньше). В редакции 2013-11-13 Entry name сменилось на TDH_THEKO. В редакции 2016-02-17 были добавлены предсказанные данные по координатам активного сайта (к этому моменту уже также были добавлены данные по предполагаемым аминокислотам, участвующим во взаимодействии между цепями) и была получена информация о том, что данный белок является гомотетрамером. Таким образом, файл претерпел 102 редакции, последняя из которых была осуществлена 2018-02-28.

Отличия RefSeq и UniProt

В целом у двух этих способов представления информации о белке довольно много общего. В начале есть строчка с описанием белка, и в UniProt, и в RefSeq есть указание на длину белка в аминокислотах, но в UniProt помимо всего указано еще качество представленной информации о белке и его TrEMBL entry, а в RefSeq указан идентификатор RefSeq Protein. В UniProt гораздо полнее представлена информация об истории изменения информации (указано когда информация попала в базу, когда появилась используемая версия последовательности, когда информация в файле редактировалась в последний раз) для RefSeq известно лишь когда информация редактировалась в последний раз и указано на то, какие версии этой последовательности в принципе существуют. Помимо этого в UniProt есть достаточно полный список всех возможных названий белка с указанием на источники, а в RefSeq используется одно название. (и чаще всего это что-то близкое к Full Recname) Указания на организм и его систематическое положение эквивалентны в обоих ресурсах, однако в UniProt имеются указания на то, что данный организм могут называть по разному (в моем случае Pyrococcus и Thermococcus). EC номера в обоих источниках совпадают, а вот рассчитанные молекулярные массы – нет (37970 КДа в RefSeq и 38101КДа в UniProt), что может быть связано с разными программами, используемыми при расчете молекулярной массы, однако все равно остается до конца непонятным, почему молекулярные массы различаются так сильно. В RefSeq нет явного указания на нуклеотидную последовательность, к которой относится ген данного белка, в отличие от UniProt, где указан тип данной последовательности и ссылка на источник. В обоих базах данных представлена общая информация об осуществляемой белком функции, его строении (сколько и каких цепей), кофакторах и ионах металлов. Стоит отметить, что информация о конкретных сайтах связывания кофакторов, ионов металлов, местах взаимодействия пептидных цепей лучше представлена в RefSeq (если переходить по ссылкам, которые там есть), так как для каждого из типов взаимодействий там подобрана отдельная структура с идентификатором и представлены ссылки на статьи, где это взаимодействие описано. В UniProt представлена только одна ссылка на трехмерную структуру, а вся информация по сайтам взаимодействия предсказывается сервисом HAMAP, а не основана на реальных наблюдениях. Помимо этого в RefSeq есть информация о родстве данного белкового подсемейства с другими подсемействами. Однако в RefSeq , в отличие от UniProt отсутствуют данные по физико-химическим характеристикам белка, его рН и температурном оптимумах, координатах активного центра, не прописаны особенности вторичной структуры белковой цепи (в UniProt есть данные про диапазоны аминокислот и участки вторичной структуры с ними ассоциированные) и нет массива ссылок на другие базы данных, где описан этот белок. В обеих базах данных информация о последовательности белка представлена идентично, помимо отсутствия CRC64 в файле RefSeq.

Записи различных необычных состояний белков в UniProt

UniProt AC Тип явления Как выглядит в записи UniProt
Q9I7U4 Альтернативный сплайсинг
FT   VAR_SEQ   17686  18141       GLDIEKYTLEKCDVQNNVWMKVSDFNKDIKSYAVQKLSMNA
FT                                QYMFRVVAANPIGESEPTESDPVTITKKFEKPSPPRGPTTV
FT                                SGMNDTSFNLAWEPSETDGGSKIIEYIVEIREETETTYRSV
FT                                GVTLGTVTNIHVEKVVRNKGYFFRIYARNEVGTSEAFETTE
FT                                KIVLGRKITPPSPPQNLRAPDVTSRSVTLDWEVPARNGGSE
FT                                ITGYCVEKRSSTSTNWTKVITLDAHQLHYTIDNLKEKCEYW
FT                                FRVSAENEVGLGAPAVTESISLKTHASEFILVVRNCGSYTE
FT                                FGFLKAVPSPPTGPLEARVLAANAHIFEWGLPESDGGAPLL
FT                                GYHIAIRDMKKTMWIEVGRVPAGVLKFQIRDLQENHEYMIR
FT                                IFAKNEIGLSEPLESEEPYKAMTAGHESLPDEPRTEMSSCN
FT                                TSSWLRDHHMDADIHSYARGRLLQRDEYFFRLWAELPKSKK
FT                                KKSSK -> DEDEVKRSAENAWGKLLPHQKKYFEVSMSQLC
FT                                FYATVFTTPVDQVRPKETPVKRMLPAARKKPKNQKKKAVPK
FT                                WRYRSRKRPMAKPTPNPNNPAMSTAFIGFLREYQRRNTIVD
FT                                VKKRLQRAAKMWSKLSKAQKNKFRTAVSIAAYSLPSADFPP
FT                                APATCHLRRRFAWQHIGHVHRSITQNCQSRAAPSLGDFSTL
FT                                LTTPHWAKFQVLKVCNWIFQVQGNPFRSPLLTAHFYLLSFK
FT                                KHTKLPGHLRGKFLQTGRIGLYLGFYNVGYSEQLRQFVCDE
FT                                QLYVQIMAVVNLLASWLYLCFSHRWIYDQFVILLYVPLYIY
FT                                FLILRRHLTKLLNECAGLHKSMQMIMGDRLCAKIHRECIYT
FT                                LLLIIMSILRLLWQIRIYSVYQSIFIFGVAFIYHFELLFFG
FT                                NYLIWLSCIFRSLNVFLAKDMRSDRLQILKGVLRQQTIIWR
FT                                VHRTVSRYFALHIISFMIQPGIKICIILKCSGIQMNAQIIS
FT                                LILHLLLLGLFMIIASNLQKQHRTFQKSYIGLKDDPNYFVL
FT                                KSWRLLQNRTLPQAFGVTFLRKREKVQYKQDVITMLLRFSD
FT                                SQQVYQQRANCCRFLPAVFITMILFLHKLFSYELQKESKLV
FT                                NLLQIEKRTLKSEIELWNENLTSIYIFLTLVCSLVNKNELW
FT                                KLINEAQLTYKQLKSLLGKHLVLKCSYDVLIHGLLLILLLA
FT                                VMVVDIIFFNWPKASGERNTVTLTELHQIFDYLMGIPRLLF
FT                                VLIMAMRILYHLISAGWLQCLGMLRLQRNLKLYQFQLRSIF
FT                                YNQKCENILAGHYFKVSYMYFLWMMPFRIAELMQFLKYDYD
FT                                ELVQKQKSQEDLEDEAIWEGEENSRQQNLQELLMKPLLILS
FT                                WHFALWMLLLAAAYTQQKEYSTLMAKSWNFKSDENGCEMKE
FT                                FLDEICWTGHAFKQLDILDLLVCTENEQDCICL (in
FT                                isoform B). {ECO:0000305}.
FT                                /FTId=VSP_052121.
 	
P18283 Селеноцистеин
 FT   NON_STD      40     40       Selenocysteine.
Q9NBA1 N-гликозилирование
 FT   CARBOHYD     53     53       N-linked (GlcNAc...).
FT                                {ECO:0000213|PDB:2V5M,
FT                                ECO:0000213|PDB:2V5S,
FT                                ECO:0000213|PDB:4XHQ}.
P06737 Внутрибелковое основание Шиффа между лизином и пиридоксальфосфатом
 FT   MOD_RES     681    681       N6-(pyridoxal phosphate)lysine.
FT                                {ECO:0000250}.

© Кристина Перевощикова, 2017