Описание лизин-рацемазы
Oenococcus oeni PSU-1

Главная цель данного практикума - научиться работать с базой данных Uniprot.

Базовая инофрмация о данном белке из Uniprot

Основные данные о белке приведены в таблице 1. Информация была получена из базы данных Uniprot при помощи "Retrieve/ID mapping" и поиску по GenBank AC данного мне белка.

Таблица 1. Описание лизин-рацемазы Oenococcus oeni PSU-1
Uniprot ID LYSR_OENOB
Uniprot AC Q04HB7
RefSeq ID WP_002818076.1
PDB ID 3CO8
Длина белка (а.о.) 371
Молекулярная масса (Да) 41354
Рекомендуемое название Lysine racemase

Данный белок уже рассматривался мной в предыдущем семестре. Надо отметить, что он интересен не только мне, потому что информация о нём в последний раз обновлялась 16 января 2019 года. Он входит в базу данных Swiss-prot и имеет статус reviewed, что означает, что он был аннотирован не автоматически, а куратором базы данных. Так как данному белку посвящено несколько статей и в PDB есть его структура, закономерно, что в графе PE в записи uniprot записано 'evidence at protein level'. Таблица 1 содержит также информацию о длине и молекулярной массе белка. Данные значения не являются рекордно высокими или низкими, однако примечательно, что длина данного белка превышает среднюю для белков со схожим рекомендованным названием (о данном сеансе поиска см. ниже).


Поиск кластеров в UniRef
В таблице 2 представлены кластеры, найденные в UniRef. Кластер UniRef100_Q04HB7 содержит только 100% идентичные белки. Примечательно, что один из трёх белков короче остальных белков кластера. Все белки, входящие в кластер, принадлежат Oenococcus oeni.
Другой кластер UniRef90_Q04HB7 содержит, в свою очередь, белки, совпадающие на 90% и более. В данном кластере представлены белки, принадлежащие разным штаммам Oenococcus oeni. Заметен больший разброс в длинах белков (от 223 до 380 аминокислотных остатков).
Наконец, кластер UniRef50_Q04HB7 содержит белки, схожие на 50 и более процентов. Надо заметить, что при переходе к кластерам с более низким порогом идентичности, число белков увеличивается, и их длины находятся в большем диапазоне. Причём в данном случае при переходе от порога в 100 к 90% наблюдались изменения показателей большие, чем при переходе от 90 к 50%.

Таблица 2. Кластеры UniRef, содержащие белок ABJ56155.1
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_Q04HB7 Lysine racemase 3
UniRef90 UniRef90_Q04HB7 Lysine racemase 19
UniRef50 UniRef50_Q04HB7 Lysine racemase 21

Сеансы поиска

1. Поиск по рекомендованному названию "Lysine racemase"
Текст запроса: name:"lysine racemase"
Количество белков: 26
Из них reviewed: 2
24 белка определены для бактерий, причём 20 из них принадлежит группе Firmicutes. 2 белка определены из метагеномных данных. 7 белков имеют металл-связывающие сайты, один из белков связывает NADP, два - пиридоксальфосфат (витамин B6). Также присутствуют данные о том, что у одного из организмов белок находится в периплазме, для некоторых белков определена изомеразная, для некоторых оксидоредуктазная активность.


2. Поиск по тому же названию среди белков своего организма.
Текст запроса: name:"lysine racemase" AND organism:"Oenococcus oeni (strain ATCC BAA-331 / PSU-1) [203123]"
Количество белков: 1
Из них reviewed: 1


3. Поиск по тому же названию среди белков из организмов того же семейства.
Согласно Taxonomy Browser Oenococcus oeni PSU-1 принадлежит к Leuconostocaceae.
Текст запроса: name:"lysine racemase" taxonomy:"Leuconostocaceae [81850]"
Количество белков: 1
Из них reviewed: 1


4. Поиск по тому же названию среди белков из организмов того же отдела.
Согласно Taxonomy Browser Oenococcus oeni PSU-1 принадлежит к Firmicutes.
Текст запроса: name:"lysine racemase" taxonomy:"Firmicutes [1239]"
Количество белков:20
Из них reviewed: 1


5. Поиск гомеобоксов
Текст запроса: name:homeobox
Количество белков: 58127
Из них reviewed: 1396


6. Поиск гомеобоксов представителей Arthropoda
Текст запроса: name:homeobox taxonomy:"Arthropoda [6656]"
Количество белков: 4951
Из них reviewed: 57


7. Поиск гомеобоксов представителей Vertebrata
Текст запроса: name:homeobox taxonomy:"Vertebrata [7742]"
Количество белков: 37867
Из них reviewed: 994


8. Поиск по слову "трипсин"
Текст запроса: name:trypsin
Количество белков: 23018
Из них reviewed: 312


9. Поиск трипсинов, исключающий ингибиторы
Текст запроса: name:trypsin NOT name:inhibitor
Количество белков: 18270
Из них reviewed: 101


Лизин-рацемаза, как мы смогли заметить в ходе данного практикума, - довольно редко встречающийся бактериальный фермент. Большинство описанных лизин-рацемаз принадлежат представителям класса Bacilli из отдела Firmicutes. Рассматриваемому штамму, как и семейству, в которое он входит, принадлежит только один белок с названием "lysine racemase". Чуть большее распространение белок получил в пределах отдела, но всё же примечательно, что из 20 найденных белков только один относится к категории reviewed.
Другая ситуация наблюдается при поисках гомеобоксов - участков гомеозисных генов, вовлечённых в эмбриональное развитие. Гомеобоксы кодируют гомеодомены, способные связывать ДНК. Их важность объясняет большую распространённость и хорошую изученность. Однако эти показатели не равны для представителей разных таксонов. Я намеренно решила сравнить Arthropoda и Vertebrata. Чем объясняется различие общего количества найденных белков у этих двух групп, техническими или биологическими причинами - это тема, которая шире темы данного практикума, однако доля белков со статусом "reviewed" для Vertebrata составляет около 2.6%, в то время как для Arthropoda - 1.35%, что приблизительно в два раза меньше.
В случае трипсина можно наблюдать интересную картину: ингибиторов в базе данных содержится сильно меньше, чем самого белка. При этом статус "reviewed" по большей части имеют ингибиторы, а не трипсины. Это, вероятно, свидетельствует о том, что учёных интересуют механизмы регуляции трипсина, однако данный феномен может налблюдаться из-за не особо большой вариативности трипсинов.

RefSeq

Для рассматриваемого белка в Uniprot существует две ссылки на базу данных RefSeq. Первая из них, WP_002818076.1 содержит запись о собственно рассматриваемом белке, а вторая - NC_008528.1 - информацию о геноме бактерии. Нас в данном практикуме особенно интересует первая из них.
Далее рассмартривается формат с префиксом "WP_". Всего в RefSeq для белков имеется 5 форматов записи: "AP_" основывается на альтернативных аннотациях с префиксом "AC_", "NP_" связан с референсной аннотацией ("NC_") или с аннотированными транскриптами ("NM_"), два других предсказываются на основе предсказанного же транскрипта ("XP_") или на основе "XM_" транскрипта/ДНК без известного транскрипта.
Согласно документации, записи с идентификаторами, начинающиеся с "WP_", соответствуют так называемым "RefSeq non-redundant proteins". Подобный формат был введён в 2013 году в связи с сильной избыточностью информации в базах данных. Произошло это потому что выкладываемые бактериальные (в данном случае) геномы были получены из близких штаммов или просто из одного штамма. К примеру, могло выкладываться несколько секвенированных геномов бактерий, выделенных в течение разных периодов развития заболевания. Разумеется, подобные исследования имеют смысл, когда мы хотим изучить эволюцию патогенов, но основная часть белков остаётся неизменной, что вызывает переполнение базы данных.
Интересно то, как записи RefSeq хранятся, записываются и обновляются. Основной концепт состоит в том, что сама запись RefSeq хранится независимо от отдельных белков, выделенных из отдельных организмов. Когда доходит до аннотации генома в NCBI, если встречается белок, последовательность которого на 100% совпадает с последовательностью, записанной в записи RefSeq, NCBI автоматически присваивает ему WP_ идентификатор существующей записи, также из этой записи наследуется информация о названии и функции белка. Последовательность белка в записи никогда не изменяется, а если в существующих секвенированных геномах нет последовательности, соответсвующей последовательности в записи, запись удаляется. Такое может произойти из-за ошибок, допущенных при разметке генома и т.п.
Итак, основные различия между записями RefSeq и Uniprot лежат в целях, которые они преследуют, чем и объясняется различие форматов записей. Из основных различий: в RefSeq номер версии всегда равен 1, в поле "ORGANISM" не указываются мелкие таксономические единицы, если белок известен для одного организма, обозначается его род и вид без штамма, если для нескольких видов - самая низшая таксономическая группа, объединяющая два вида. Если виды принадлежат разным царствам, вместо одного блока "ORGANISM" указывается несколько. В целом, по сравнению с Uniprot, многие подробности не указываются, что закономерно. Ввиду того, что рассматриваемый формат записи RefSeq был придуман скорее для обобщения и уменьшения количества избыточных данных, мне кажется неправильным считать, что он сильно уступает Uniprot.

История записи Uniprot
К нынешнему виду запись пришла в результате 87-ми модификаций. В результате первого изменения к номеру в PubMed добавился DOI статьи, посвящённой сравнительной геномике лактобактерий, причём, что интересно, одним из соавторов этой статьи является наш выдающийся (бывший) соотечественник Кунин, чья книга вдохновила меня поступать на ФББ.
Запись о белке долгое время хранилась в TrEMBL с идентификатором Q04HB7_OENOE, пока, наконец, 1 мая 2013 года, она не получила статус "reviewed", сменила идентификатор на LYSR_OENOB, расположение на SwissProt и даже название с аланин-рацемазы на лизин-рацемазу. Это изменение произошло вследсвие публикации структуры данного белка, благодаря чему стало известно больше подробностей о функции, кинетических константах и оптимуме pH.
Большая часть изменений довольно незначительна, касается исправлений довольно забавных опечаток в фамилиях авторов публикаций, перестановке слов местами и тому подобное. Однако часто встречаются и значимые изменения и дополнения в строке DR, отвечающей за упоминания белка в сторонних базах данных.

Локальные особенности
Белок представлен одной цепью. В аннотации обозначено два активных сайта в позициях 39 и 266, причём оба из них служат акцепторами протона. При помощи Jmol было выяснено, что позиции 39 отвечает лизин, а позиции 266 - тирозин. Два связывающих сайта распологаются в позициях 135 и 313, им соответствуют аминокислоты аргинин и селеноцистеин. Также в белке присутствует модификация 39-го лизина, находящегося в активном сайте. В результате модификации на аминогруппу лизина (N6 атом) навешивается карбоксильная группа пиридоксальфосфата. В итоге PLP формирует вместе с 39-м лизином основание Шиффа.