"В мире больше идолов, чем реальных вещей: это мой "злой взгляд" на мир, мое "злое ухо"..."

Фридрих Ницше, Сумерки идолов.

Добро пожаловать!

База данных UniProt

Этот белок является ферментом, катализирующим изомеризацию ксилозы, являющейся пентозой. Она позже может включаться в метаболизм актиномицета(например, в пентозофосфатный путь).

Практикум предполагал изучение базы данных UniProt.

Получение информации о белке XYLA_ACTM4

Вся информация. представленная в таблице 1 была получена из базы данных UniProt с помощью поиска по идентификатору. Были получены данные о длине белка, его молекулярной массе и числе PDB-структур.

Таблица 1. Основная информация о белке XYLA_ACTM4 из UniProt.
UniProt ID UniProt AC RefSeq ID PDB ID Длина белка (а.о.) Молекулярная масса (Да) Рекомендуемое название
XYLA_ACTM4 P12851; I0GZR8 WP_014441152.1 1BHW; 1XIM; 1XIN; 2XIM; 2XIN; 3XIM; 3XIN; 4XIM; 5XIM; 5XIN; 6XIM; 7XIM; 8XIM; 9XIM 394 43499 Xylose isomerase (5.3.1.5)

Для данной последовательности белка было сделано множество различных PDB структур с разрешением от 2.2 до 4.10Å. Структур всего 14, все они были получены с помощью ренгено-структурного анализа с 1992 по 2012 года. Во всех PDB структурах были найдены 4 субъединицы белка и найдены все 394 аминокислоты. Также из описания белка на UniProt можно узнать, что данный белок в результате исследований дважды подвергали мутациям с помощью сайт-напревленного мутагенеза (обе работы были опубликованы в журнале биохимия в 1992 году). Белок цитоплазматический, существует в форме гомотетрамера, имеет каталитическим кофактором ион Mg2+. Впервые в базу данных эта последовательность была загружена в 1989 году.

Поиск кластеров белка XYLA_ACTM4 в UniRef

В таблице 2 представлены результаты поиска в базу данных UniRef, которая позволяет найти группы белков с определенным процентом схожести.

Таблица 2. Кластеры UniRef, содержащие белок XYLA_ACTM4.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_P12851 Xylose isomerase 3
UniRef90 UniRef90_P12851 Xylose isomerase 21
UniRef50 UniRef50_P24300 Xylose isomerase 2191

UniRef позволяет найти белковые последовательности, похожие друг на друга в разном процентном соотношении, а так же дает информацию об организмах, позволяя оценивать степень гомологичности последовательности внутри группы или же степень конвергентного сходства. Так, в кластере с процентом похожести 90% расположены белки организмов одного рода Actonoplanes, в кластере с процентом 100% — белки организмов одного вида, а в кластере с 50%-ной похожестью — белки более чем 2000 бактерий различных групп. Также можно проследить и изменение длин белковых последовательностей: для кластера 50 они колеблются от 82 до 431 аминокислоты (со средним значением в 388), для кластера 90 — от 393 до 395 (среднее - 394).

Сеансы поиска в UniProt

Для более детального знакомства с базой данных UniProt и синтаксисом запросов в данной базе были проведены следующие сеансы поиска:

Поиск ксилозоизомераз

  • Поиск в UniProt по рекомендованному названию белка

    Текст запроса: name:"xylose isomerase"
    Количество находок в Swiss-Prot: 198
    Общее количество находок: 33219

  • Поиск по рекомендованному названию белка среди белков данного организма

    Текст запроса: name:"xylose isomerase" taxonomy:"actinoplanes missouriensis"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 2

  • Поиск по рекомендованному названию белка среди огранизмов семейства, к которому принадлежит данный организм

    Текст запроса: name:"xylose isomerase" and taxonomy:"micromonosporaceae"
    Количество находок в Swiss-Prot: 2
    Общее количество находок: 331

  • Поиск по рекомендованному названию белка среди организмов данного отдела

    Текст запроса: name:"xylose isomerase" and taxonomy:"actinobacteria"
    Количество находок в Swiss-Prot: 25
    Общее количество находок: 5899

Поиск гистонов

  • Поиск гистонов без ограничений по организмам

    Текст запроса: name:"Histone"
    Количество находок в Swiss-Prot: 2082
    Общее количество находок: 154745

  • Поиск гистонов среди таксона "Членистоногие"

    Текст запроса: name:"histone" and taxonomy:"arthropoda"
    Количество находок в Swiss-Prot: 139
    Общее количество находок: 32273

  • Поиск гистонов в группе "Настоящие грибы"

    Текст запроса: name:"histone" and taxonomy:"fungi"
    Количество находок в Swiss-Prot: 1522
    Общее количество находок: 94052

Поиск трипсинов

  • Поиск по слову "трипсин"

    Текст запроса: name:trypsin
    Количество находок в Swiss-Prot: 312
    Общее количество находок: 23018

  • Поиск трипсинов, исключая их ингибиторы

    Текст запроса: name:"trypsin" and NOT name:"inhibitor"
    Количество находок в Swiss-Prot: 101
    Общее количество находок: 18270

Поиск позволяет находить и оценивать число белков различных классов в разных группах организмов (виды, рода, порядки и т.д.)

Сравнение записей в UniProt и RefSeq Protein

Было проведено сравнение записей в двух разных базах данных. В целом, можно отменить, что записи UnoProt намного более подробные, так как содержат не только информацию о белковой последовательности и организме, для которого она была получена. В этой базе также есть огромное количество нужной информации: упоминание научных работ, в ходе которых была установлена белковая последовательность и/или структура белка, перечисление всевозможных PDB-id, которые доступны для этого белка. Также здесь можно найти информацию о работах по мутагенезу белков и поаминокислотное расположение элементов вторичной структуры протеина. Но вместе с тем в базе данных RefSeq есть информация о иных рамках считывания того же самого белка.

История изменений

Первая запись была сразу сделана в Swiss-Prot 01.10.1989, а последняя на настоящий момент (134) — 16.01.2019. Впервые название белка изменили на 7 записи (с XYLA$ACTMI на XYLA_ASTMI), а затем на записи 94 (с XYLA_ACTMI на XYLA_ASTM4). Также можно отметить, что 94 запись впоследсвии была перенесена на запись с другим ID (новый — I0GZR8). Первая запись была очень неподробной: в ней нет указания на статьи, PDB-id (на момент 1989 года работы по ренгено-структурному анализу и сайт-напревленному мутаенезу просто не были выполнены). По этой причине также отсуствуют и маркировки аминокислот по вторичной структуре. Отдельно выдеенная структура также нахожится в базе данных Swiss-Prot.

Описание нестандартных элементов

Нестандартные аминокислоты в тексте UniProt описаны с помощью идентификатора NON_STD (селеноцистеин или пирролизин), после которого указано название модифицированной аминокислоты.

Дисульфидные мостики обозначаются с помощью тега DISULFID, после которого указаны номера аминокислот, соединенных мостиком. Также указано, если мостик соединяет 2 разных цепи (тегом intershain).

Вариабельные аминокислоты обозначены тегом VARIANT с указанием номера аминокислоты и возможной замены в однобуквенном коде.

Пострансляцинные модификации аминокислот обозначены тегом MOD_RES с указанием номера аминокислоты и типа модификации (например, Omega-N-methylarginine).