Практикум 5. Знакомство с UniProt
В этом практикуме я изучала формат записи и её истории в базе данных Uniprot, а также кластеры Uniref, в которые входит каждый белок, на примере фенилаланил-тРНК-синтетазы Bacteroides fragilis NCTC 9343. С соотвтствующим геном я уже работала, в том числе кратко описав сам белок и его функции. Кроме того, в практикуме был изучен синтаксис поисковой системы Uniprot и было проведено сравнение формата записи с соответствующей в RefSeq.
Получение из Uniprot информации о белке SYFB_BACFN.
По известному GenBank AC был произведён поиск в базе данных Uniprot. В соответствие поисковой системой была выдана единственная запись о белке с Uniprot ID SYFB_BACFN [1]. Полученные из этой записи данные приведены в таблице 1.
UniProt ID | UniProt AC | RefSeq ID | PDB ID | Длина белка (а.о.) | Молекулярная масса (Да) | Рекомендуемое название |
---|---|---|---|---|---|---|
SYFB_BACFN | Q5LC76 | WP_005788108.1 | 3IG2 | 820 | 90708 | Phenylalanine--tRNA ligase beta subunit |
Исследуемый белок рецензирован человеком (находится в базе данных SwissProt), достоверность на уровне полученного белка. Данному идентификатору отвечает бета-субъединица гетеротетрамера из 2 альфа-субъединиц и 2 бета-субъединиц. Кофактором для белка является ион Mg2+ в количестве 2 на тетрамер. PDB структура 3IG2 - одна бета-цепь фенилаланил-тРНК-синтетазы, получена рентгеноструктурной кристаллографией в 2009 году, разрешение 2.09 ангстрем [2]. Соответствующей статьи о структуре нет. Фенилаланил-тРНК-синтетаза - белок, присутствующий у всех живых организмов. Он катализирует реакцию образования фенилаланил-тРНК из фенилаланина и соответствующей ему тРНК сопряженно с гидролизом АТФ до АМФ (рис. 1). У бактерии Bacteroides fragilis NCTC 9343 ген данного белка упоминается в контексте большого количества инверсий в геноме [3].
Поиск белка SYFB_BACFN в системе UniRef.
Полученный Uniprot AC использовали для поиска. Были найдены 3 кластера (по 1 на 50%, 90% и 100% совпадения последовательности), как и должно быть.
Раздел UniRef | ID кластера | Название кластера | Размер кластера |
---|---|---|---|
UniRef100 | UniRef100_Q5LC76 | Cluster: Phenylalanine--tRNA ligase beta subunit | 12 |
UniRef90 | UniRef90_Q5LC76 | Cluster: Phenylalanine--tRNA ligase beta subunit | 195 |
UniRef50 | UniRef50_Q5LC76 | Cluster: Phenylalanine--tRNA ligase beta subunit | 598 |
Функция многих белки из кластера 90% и выше совпадений, скорее всего, определяется как раз по гомологии структуры. В 50% кластере seed sequence (исходная последовательность для составления кластера) другая, не изучаемый белок - L1NH88_9PORP, причём автоматически составленная на базе нуклеотидной последовательности без рецензии человеком.
Сеансы поиска в UniProt.
Для знакомства с синтаксисом запросов в UniProt были проведены следующие сеансы поиска с использованием известных данных (организм, название) о фенилаланил-тРНК-синтетазе и других белках. При первичном формировании запросов удобно пользоваться инструментом "Advanced Search" с интуитивно понятным интерфейсом, а дальше действовать по аналогии.
Поиск фенилаланил-тРНК-синтетазы
-
Поиск по названию белка
Текст запроса: "name:"phenylalanine trna ligase beta subunit""
Количество находок в Swiss-Prot: 345
Общее количество находок: 31780
-
Поиск по названию белка в конкретном организме (вид Bacteroides fragilis, разные штаммы)
Текст запроса: "name:"phenylalanine trna ligase beta subunit" organism:"bacteroides fragilis""
Количество находок в Swiss-Prot: 2
Общее количество находок: 40
-
Поиск по названию белка в семействе исследуемого организма (Bacteroidaceae)
Текст запроса: "name:"phenylalanine trna ligase beta subunit" taxonomy:bacteroidaceae"
Количество находок в Swiss-Prot: 3
Общее количество находок: 291
-
Поиск по названию белка в отделе исследуемого организма (Bacteroidetes)
Текст запроса: "name:"phenylalanine trna ligase beta subunit" taxonomy:bacteroidetes"
Количество находок в Swiss-Prot: 8
Общее количество находок: 2531
Большинство бактерий имеют один и тот же ген pheT, кодирующий исследуемый белок, что логично. У человека и мыши это ген FARSB, у дрозофилы beta-PheRS, у Caenorhabditis elegans fars-3, у грибов FRS1. Сильно различается длина белка у прокариот и различных эукариот. У нашего организма абсолютно все дубли (разные штаммы), несколько записей уже, видимо, были слиты вместе (например, как в нашей несколько штаммов). Всего в 2 непроверенных записях есть отличие в длине белка - скорее всего, она постоянна для всех, а это мутации.
Поиск альбуминов
-
Поиск по названию альбумин
Текст запроса: "name:albumin"
Количество находок в Swiss-Prot: 77
Общее количество находок: 1043
-
Поиск по названию альбумин в домене Viridiplantae
Текст запроса: "name:albumin taxonomy:viridiplantae"
Количество находок в Swiss-Prot: 33
Общее количество находок: 563
-
Поиск по названию альбумин в домене Vertebrata
Текст запроса: "name:albumin taxonomy:vertebrata"
Количество находок в Swiss-Prot: 43
Общее количество находок: 440
Чётко видно, что только зелёные растения и позвоночные имеют альбумины, по проверенным данным. Оставшаяся запись SwissProt - альбумин-связывающий белок. Также некоторые записи по данному запросу - рецепторы, альбумин-связывающие и альбуминоподобные белки, которые могут встречаться и у других групп организмов.
Поиск трипсинов
-
Поиск по слову "трипсин"
Текст запроса: "name:trypsin"
Количество находок в Swiss-Prot: 312
Общее количество находок: 23018
-
Поиск трипсинов, исключая их ингибиторы
Текст запроса: "name:trypsin NOT name:inhibitor"
Количество находок в Swiss-Prot: 101
Общее количество находок: 18270
-
Поиск трипсинов, исключая их ингибиторы и рецепторы
Текст запроса: "name:trypsin NOT name:inhibitor NOT name:receptor"
Количество находок в Swiss-Prot: 101
Общее количество находок: 18164
В поиске по слову трипсин в названии даже в итоговом варианте без интгибиторов и рецепторов попадаются трипсиноподобные протеазы, трипсиногены и др.
Различия в записях баз данных UniProt и RefSeq Protein
UniProt | RefSeq |
Приведена катализируемая реакция, часто с поясняющими схемами, класс фермента и, опционально, краткое описание | Описание есть не всегда, если есть, то на основе статей - описана катализируемая реакция и её функции |
Много идентификаторов и иной информации из других баз данных (PDB, GenBank, ссылки на геномы и др.) | Нет идентификаторов из других баз данных (только на полный геном) |
Указаны все лиганды, кофакторы и их сайты связвания | Нет |
Описаны основные физико-химические свойства (максимальная скорость реакции, константа Михаэлиса, регуляция активности фермента, молекулярная масса) | Нет |
Есть информация о вторичной структуре и особенностях (модификации, альтернативный сплайсинг, серные мостики и др.) | Нет |
Нет | Есть графическое представление последовательности белка |
Возможно посмотреть кластеры по 100, 90, 50 % идентичности, похожие белки и семейства белков | Возможно посмотреть несколько абсолютно идентичных белков |
Белок всегда соотносится только с 1 видом организмов (но может быть с разными штаммами) | Белок может соотноситься с целым семейством или порядком |
RefSeq Protein, видимо, в основном концентрируется на описании точной последовательности белка, в то время как UniProt даёт более общую и полную информацию о конкретном белке. У исследуемого белка нет записи в RefSeq (хотя дан RefSeq AC WP_005788108.1), возможно потому, что он глубоко консервативен и имеет одинаковую последовательность для многих бактерий, и несколько записей RefSeq были слиты в одну, включая исследуемый белок.
История изменений записи в UniProt
У моей записи довольно долгая и довольно интересная история. Впервые она появилась 21.06.2005 в TrEMBL с ID Q5LC76_BACFN, автоматически сгенерированная на основе нуклеотидной последовательности. В течение 6 следующих версий к ней добавлялись метки, ключевые слова и иная дополнительная информация. Наконец, 04.04.2006 рецензент проверил достоверность существующей информации, написал аннотацию, рассказал про реакцию, кофакторы и лиганды, и под новым человекочитаемым ID SYFB_BACFN запись о бета-субъединице перешла в SwissProt. В течение следующих лет добавлялась всё новая информация о структуре, появлялись новые идентификаторы в других базах данных. Важное событие здесь - получение 3D-структуры рентгенокристаллографией в 2009 году. Ещё можно заметить, что в 2010 году изменился формат номеров записей в истории. И наконец, в текущей 89 версии от 16.01.2019 добавился идентификатор из очередной базы данных - OrthoDB.
Дополнительная информация о белке в записи
Об изучаемом белке в UniProt нет дополнительной информации, но в других записях (например, 4F2_HUMAN [4]) и на странице Help UniProt можно найти, как фиксируются многие особенности белка. Где это возможно, для всех особенностей приводятся ссылки на статьи с подтверждениями.
- CC -!- BIOPHYSICOCHEMICAL PROPERTIES – измерения каталитической активности белка и иных биохимических параметров.
- CC -!- ALTERNATIVE PRODUCTS – альтернативный сплайсинг, количество и ID изоформ, а также возможная дополнительная информация.
- CC -!- PTM – посттрансляционная модификация – фосфорилирование, гликозилирование и др. с указанием изменяемых остатков и фермента, осуществляющего модификацию. Названия и номер изменённых остатков также находятся в полях FT MOD_RES.
- FT CARBOHYD – связанные в гликопротеин остатки сахаров, с названием сахара и аминокислоты во взаимодействии, атомом контакта.
- FT DISULFID – дисульфидные связи в белке. Указаны связанные цепи, номера остатков цистеина.
- FT VAR_SEQ – варианты последовательности в изоформах белка (удаление, замена, вставка). Сами варианты по возможности приведены.
- FT CONFLICT – противоречия в источниках, указано, на какой позиции и какой конфликт.
- FT HELIX и FT STRAND – участки соответствующей вторичной структуры. Указаны начало и конец.
Зачастую дополнительную информацию также можно найти в полях RP, где указываются статьи о белке (соседние поля RX, RA, RT).
Ссылки на источники
- uniprot.org/uniprot/Q5LC76 – запись SYFB_BACFN в UniProt
- rcsb.org/structure/3IG2 – структура бета-цепи фенилаланил-тРНК-синтетазы в PDB
- ncbi.nlm.nih.gov/pubmed/15746427 – статья, в которой кто-то всё же заинтересовался давно и тщательно изученной фенилаланил-тРНК-синтетазой... увы, всего лишь в контексте большого количества инверсий в геноме бактерии Bacteroides fragilis NCTC 9343.
- uniprot.org/uniprot/P08195 – запись 4F2_HUMAN в UniProt