База данных UniProt
Этот белок является ферментом, катализирующим изомеризацию ксилозы, являющейся пентозой. Она позже может включаться в метаболизм актиномицета(например, в пентозофосфатный путь).
Практикум предполагал изучение базы данных UniProt.
Получение информации о белке XYLA_ACTM4
Вся информация. представленная в таблице 1 была получена из базы данных UniProt с помощью поиска по идентификатору. Были получены данные о длине белка, его молекулярной массе и числе PDB-структур.
UniProt ID | UniProt AC | RefSeq ID | PDB ID | Длина белка (а.о.) | Молекулярная масса (Да) | Рекомендуемое название |
---|---|---|---|---|---|---|
XYLA_ACTM4 | P12851; I0GZR8 | WP_014441152.1 | 1BHW; 1XIM; 1XIN; 2XIM; 2XIN; 3XIM; 3XIN; 4XIM; 5XIM; 5XIN; 6XIM; 7XIM; 8XIM; 9XIM | 394 | 43499 | Xylose isomerase (5.3.1.5) |
Для данной последовательности белка было сделано множество различных PDB структур с разрешением от 2.2 до 4.10Å. Структур всего 14, все они были получены с помощью ренгено-структурного анализа с 1992 по 2012 года. Во всех PDB структурах были найдены 4 субъединицы белка и найдены все 394 аминокислоты. Также из описания белка на UniProt можно узнать, что данный белок в результате исследований дважды подвергали мутациям с помощью сайт-напревленного мутагенеза (обе работы были опубликованы в журнале биохимия в 1992 году). Белок цитоплазматический, существует в форме гомотетрамера, имеет каталитическим кофактором ион Mg2+. Впервые в базу данных эта последовательность была загружена в 1989 году.
Поиск кластеров белка XYLA_ACTM4 в UniRef
В таблице 2 представлены результаты поиска в базу данных UniRef, которая позволяет найти группы белков с определенным процентом схожести.
Раздел UniRef | ID кластера | Название кластера | Размер кластера |
---|---|---|---|
UniRef100 | UniRef100_P12851 | Xylose isomerase | 3 |
UniRef90 | UniRef90_P12851 | Xylose isomerase | 21 |
UniRef50 | UniRef50_P24300 | Xylose isomerase | 2191 |
UniRef позволяет найти белковые последовательности, похожие друг на друга в разном процентном соотношении, а так же дает информацию об организмах, позволяя оценивать степень гомологичности последовательности внутри группы или же степень конвергентного сходства. Так, в кластере с процентом похожести 90% расположены белки организмов одного рода Actonoplanes, в кластере с процентом 100% — белки организмов одного вида, а в кластере с 50%-ной похожестью — белки более чем 2000 бактерий различных групп. Также можно проследить и изменение длин белковых последовательностей: для кластера 50 они колеблются от 82 до 431 аминокислоты (со средним значением в 388), для кластера 90 — от 393 до 395 (среднее - 394).
Сеансы поиска в UniProt
Для более детального знакомства с базой данных UniProt и синтаксисом запросов в данной базе были проведены следующие сеансы поиска:
Поиск ксилозоизомераз
Поиск в UniProt по рекомендованному названию белка
Текст запроса: name:"xylose isomerase"
Количество находок в Swiss-Prot: 198
Общее количество находок: 33219
Поиск по рекомендованному названию белка среди белков данного организма
Текст запроса: name:"xylose isomerase" taxonomy:"actinoplanes missouriensis"
Количество находок в Swiss-Prot: 1
Общее количество находок: 2
Поиск по рекомендованному названию белка среди огранизмов семейства, к которому принадлежит данный организм
Текст запроса: name:"xylose isomerase" and taxonomy:"micromonosporaceae"
Количество находок в Swiss-Prot: 2
Общее количество находок: 331
Поиск по рекомендованному названию белка среди организмов данного отдела
Текст запроса: name:"xylose isomerase" and taxonomy:"actinobacteria"
Количество находок в Swiss-Prot: 25
Общее количество находок: 5899
Поиск гистонов
Поиск гистонов без ограничений по организмам
Текст запроса: name:"Histone"
Количество находок в Swiss-Prot: 2082
Общее количество находок: 154745
Поиск гистонов среди таксона "Членистоногие"
Текст запроса: name:"histone" and taxonomy:"arthropoda"
Количество находок в Swiss-Prot: 139
Общее количество находок: 32273
Поиск гистонов в группе "Настоящие грибы"
Текст запроса: name:"histone" and taxonomy:"fungi"
Количество находок в Swiss-Prot: 1522
Общее количество находок: 94052
Поиск трипсинов
Поиск по слову "трипсин"
Текст запроса: name:trypsin
Количество находок в Swiss-Prot: 312
Общее количество находок: 23018
Поиск трипсинов, исключая их ингибиторы
Текст запроса: name:"trypsin" and NOT name:"inhibitor"
Количество находок в Swiss-Prot: 101
Общее количество находок: 18270
Поиск позволяет находить и оценивать число белков различных классов в разных группах организмов (виды, рода, порядки и т.д.)
Сравнение записей в UniProt и RefSeq Protein
Было проведено сравнение записей в двух разных базах данных. В целом, можно отменить, что записи UnoProt намного более подробные, так как содержат не только информацию о белковой последовательности и организме, для которого она была получена. В этой базе также есть огромное количество нужной информации: упоминание научных работ, в ходе которых была установлена белковая последовательность и/или структура белка, перечисление всевозможных PDB-id, которые доступны для этого белка. Также здесь можно найти информацию о работах по мутагенезу белков и поаминокислотное расположение элементов вторичной структуры протеина. Но вместе с тем в базе данных RefSeq есть информация о иных рамках считывания того же самого белка.
История изменений
Первая запись была сразу сделана в Swiss-Prot 01.10.1989, а последняя на настоящий момент (134) — 16.01.2019. Впервые название белка изменили на 7 записи (с XYLA$ACTMI на XYLA_ASTMI), а затем на записи 94 (с XYLA_ACTMI на XYLA_ASTM4). Также можно отметить, что 94 запись впоследсвии была перенесена на запись с другим ID (новый — I0GZR8). Первая запись была очень неподробной: в ней нет указания на статьи, PDB-id (на момент 1989 года работы по ренгено-структурному анализу и сайт-напревленному мутаенезу просто не были выполнены). По этой причине также отсуствуют и маркировки аминокислот по вторичной структуре. Отдельно выдеенная структура также нахожится в базе данных Swiss-Prot.
Описание нестандартных элементов
Нестандартные аминокислоты в тексте UniProt описаны с помощью идентификатора NON_STD (селеноцистеин или пирролизин), после которого указано название модифицированной аминокислоты.
Дисульфидные мостики обозначаются с помощью тега DISULFID, после которого указаны номера аминокислот, соединенных мостиком. Также указано, если мостик соединяет 2 разных цепи (тегом intershain).
Вариабельные аминокислоты обозначены тегом VARIANT с указанием номера аминокислоты и возможной замены в однобуквенном коде.
Пострансляцинные модификации аминокислот обозначены тегом MOD_RES с указанием номера аминокислоты и типа модификации (например, Omega-N-methylarginine).