Практикум 5. Знакомство с UniProt

В этом практикуме я изучала формат записи и её истории в базе данных Uniprot, а также кластеры Uniref, в которые входит каждый белок, на примере фенилаланил-тРНК-синтетазы Bacteroides fragilis NCTC 9343. С соотвтствующим геном я уже работала, в том числе кратко описав сам белок и его функции. Кроме того, в практикуме был изучен синтаксис поисковой системы Uniprot и было проведено сравнение формата записи с соответствующей в RefSeq.

Получение из Uniprot информации о белке SYFB_BACFN.

По известному GenBank AC был произведён поиск в базе данных Uniprot. В соответствие поисковой системой была выдана единственная запись о белке с Uniprot ID SYFB_BACFN [1]. Полученные из этой записи данные приведены в таблице 1.

Таблица 1. Основная информация о белке SYFB_BACFN из UniProt.
UniProt ID UniProt AC RefSeq ID PDB ID Длина белка (а.о.) Молекулярная масса (Да) Рекомендуемое название
SYFB_BACFN Q5LC76 WP_005788108.1 3IG2 820 90708 Phenylalanine--tRNA ligase beta subunit

Исследуемый белок рецензирован человеком (находится в базе данных SwissProt), достоверность на уровне полученного белка. Данному идентификатору отвечает бета-субъединица гетеротетрамера из 2 альфа-субъединиц и 2 бета-субъединиц. Кофактором для белка является ион Mg2+ в количестве 2 на тетрамер. PDB структура 3IG2 - одна бета-цепь фенилаланил-тРНК-синтетазы, получена рентгеноструктурной кристаллографией в 2009 году, разрешение 2.09 ангстрем [2]. Соответствующей статьи о структуре нет. Фенилаланил-тРНК-синтетаза - белок, присутствующий у всех живых организмов. Он катализирует реакцию образования фенилаланил-тРНК из фенилаланина и соответствующей ему тРНК сопряженно с гидролизом АТФ до АМФ (рис. 1). У бактерии Bacteroides fragilis NCTC 9343 ген данного белка упоминается в контексте большого количества инверсий в геноме [3].

Поиск белка SYFB_BACFN в системе UniRef.

Полученный Uniprot AC использовали для поиска. Были найдены 3 кластера (по 1 на 50%, 90% и 100% совпадения последовательности), как и должно быть.

Таблица 2. Кластеры UniRef, содержащие белок SYFB_BACFN.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_Q5LC76 Cluster: Phenylalanine--tRNA ligase beta subunit 12
UniRef90 UniRef90_Q5LC76 Cluster: Phenylalanine--tRNA ligase beta subunit 195
UniRef50 UniRef50_Q5LC76 Cluster: Phenylalanine--tRNA ligase beta subunit 598

Функция многих белки из кластера 90% и выше совпадений, скорее всего, определяется как раз по гомологии структуры. В 50% кластере seed sequence (исходная последовательность для составления кластера) другая, не изучаемый белок - L1NH88_9PORP, причём автоматически составленная на базе нуклеотидной последовательности без рецензии человеком.

Сеансы поиска в UniProt.

Для знакомства с синтаксисом запросов в UniProt были проведены следующие сеансы поиска с использованием известных данных (организм, название) о фенилаланил-тРНК-синтетазе и других белках. При первичном формировании запросов удобно пользоваться инструментом "Advanced Search" с интуитивно понятным интерфейсом, а дальше действовать по аналогии.

Поиск фенилаланил-тРНК-синтетазы

Большинство бактерий имеют один и тот же ген pheT, кодирующий исследуемый белок, что логично. У человека и мыши это ген FARSB, у дрозофилы beta-PheRS, у Caenorhabditis elegans fars-3, у грибов FRS1. Сильно различается длина белка у прокариот и различных эукариот. У нашего организма абсолютно все дубли (разные штаммы), несколько записей уже, видимо, были слиты вместе (например, как в нашей несколько штаммов). Всего в 2 непроверенных записях есть отличие в длине белка - скорее всего, она постоянна для всех, а это мутации.

Поиск альбуминов

Чётко видно, что только зелёные растения и позвоночные имеют альбумины, по проверенным данным. Оставшаяся запись SwissProt - альбумин-связывающий белок. Также некоторые записи по данному запросу - рецепторы, альбумин-связывающие и альбуминоподобные белки, которые могут встречаться и у других групп организмов.

Поиск трипсинов

В поиске по слову трипсин в названии даже в итоговом варианте без интгибиторов и рецепторов попадаются трипсиноподобные протеазы, трипсиногены и др.

Различия в записях баз данных UniProt и RefSeq Protein

UniProt RefSeq
Приведена катализируемая реакция, часто с поясняющими схемами, класс фермента и, опционально, краткое описание Описание есть не всегда, если есть, то на основе статей - описана катализируемая реакция и её функции
Много идентификаторов и иной информации из других баз данных (PDB, GenBank, ссылки на геномы и др.) Нет идентификаторов из других баз данных (только на полный геном)
Указаны все лиганды, кофакторы и их сайты связвания Нет
Описаны основные физико-химические свойства (максимальная скорость реакции, константа Михаэлиса, регуляция активности фермента, молекулярная масса) Нет
Есть информация о вторичной структуре и особенностях (модификации, альтернативный сплайсинг, серные мостики и др.) Нет
Нет Есть графическое представление последовательности белка
Возможно посмотреть кластеры по 100, 90, 50 % идентичности, похожие белки и семейства белков Возможно посмотреть несколько абсолютно идентичных белков
Белок всегда соотносится только с 1 видом организмов (но может быть с разными штаммами) Белок может соотноситься с целым семейством или порядком

RefSeq Protein, видимо, в основном концентрируется на описании точной последовательности белка, в то время как UniProt даёт более общую и полную информацию о конкретном белке. У исследуемого белка нет записи в RefSeq (хотя дан RefSeq AC WP_005788108.1), возможно потому, что он глубоко консервативен и имеет одинаковую последовательность для многих бактерий, и несколько записей RefSeq были слиты в одну, включая исследуемый белок.

История изменений записи в UniProt

У моей записи довольно долгая и довольно интересная история. Впервые она появилась 21.06.2005 в TrEMBL с ID Q5LC76_BACFN, автоматически сгенерированная на основе нуклеотидной последовательности. В течение 6 следующих версий к ней добавлялись метки, ключевые слова и иная дополнительная информация. Наконец, 04.04.2006 рецензент проверил достоверность существующей информации, написал аннотацию, рассказал про реакцию, кофакторы и лиганды, и под новым человекочитаемым ID SYFB_BACFN запись о бета-субъединице перешла в SwissProt. В течение следующих лет добавлялась всё новая информация о структуре, появлялись новые идентификаторы в других базах данных. Важное событие здесь - получение 3D-структуры рентгенокристаллографией в 2009 году. Ещё можно заметить, что в 2010 году изменился формат номеров записей в истории. И наконец, в текущей 89 версии от 16.01.2019 добавился идентификатор из очередной базы данных - OrthoDB.

Дополнительная информация о белке в записи

Об изучаемом белке в UniProt нет дополнительной информации, но в других записях (например, 4F2_HUMAN [4]) и на странице Help UniProt можно найти, как фиксируются многие особенности белка. Где это возможно, для всех особенностей приводятся ссылки на статьи с подтверждениями.

  1. CC -!- BIOPHYSICOCHEMICAL PROPERTIES – измерения каталитической активности белка и иных биохимических параметров.
  2. CC -!- ALTERNATIVE PRODUCTS – альтернативный сплайсинг, количество и ID изоформ, а также возможная дополнительная информация.
  3. CC -!- PTM – посттрансляционная модификация – фосфорилирование, гликозилирование и др. с указанием изменяемых остатков и фермента, осуществляющего модификацию. Названия и номер изменённых остатков также находятся в полях FT MOD_RES.
  4. FT CARBOHYD – связанные в гликопротеин остатки сахаров, с названием сахара и аминокислоты во взаимодействии, атомом контакта.
  5. FT DISULFID – дисульфидные связи в белке. Указаны связанные цепи, номера остатков цистеина.
  6. FT VAR_SEQ – варианты последовательности в изоформах белка (удаление, замена, вставка). Сами варианты по возможности приведены.
  7. FT CONFLICT – противоречия в источниках, указано, на какой позиции и какой конфликт.
  8. FT HELIX и FT STRAND – участки соответствующей вторичной структуры. Указаны начало и конец.

Зачастую дополнительную информацию также можно найти в полях RP, где указываются статьи о белке (соседние поля RX, RA, RT).

Ссылки на источники

  1. uniprot.org/uniprot/Q5LC76 – запись SYFB_BACFN в UniProt
  2. rcsb.org/structure/3IG2 – структура бета-цепи фенилаланил-тРНК-синтетазы в PDB
  3. ncbi.nlm.nih.gov/pubmed/15746427 – статья, в которой кто-то всё же заинтересовался давно и тщательно изученной фенилаланил-тРНК-синтетазой... увы, всего лишь в контексте большого количества инверсий в геноме бактерии Bacteroides fragilis NCTC 9343.
  4. uniprot.org/uniprot/P08195 – запись 4F2_HUMAN в UniProt