Знакомство с базой данных UniProt

В данном практическом задании мы учимся работать c банками последовательностей белков UniProt. Обращаем внимание на сходство и различие предоставляемой информации, а также на достоинства и недостатки каждого из банков.

Получение информации о белке DDL_LEUMM

В базе данных UniProt была получена информация о D-аланин-D-аланиновой лигазе из бактерии Leuconostoc mesenteroides subsp. mesenteroides ATCC 8293. Полученная информация отображена в таблице 1.

Таблица 1. Основная информация о белке DDL_LEUMM из UniProt
UniProt ID DDL_LEUMM
UniProt AC Q03ZI1
RefSeq ID WP_011679162.1
PDB ID 1EHI
Длина белка (а.о.) 377
Молекулярная масса (Да) 41826
Рекомендуемое название D-alanine--D-alanine ligase

Согласно данным из банка UniProt, существование D-аланин-D-аланиновой лигазы экспериментально подтверждено на уровне белка. Исследуемый белок был вручную рассмотрен и аннотирован кураторами UniProtKB, то есть запись принадлежит Swiss-Prot (Январь 15, 2008). Данный фермент имеет 2 цепи (A/B), однако PDB структура существует только для цепи A.

Поиск белка DDL_LEUMM в UniRef

Кластер ссылок UniRef включает три базы данных (UniRef100, UniRef90 и UniRef50) и сформирован из наборов последовательностей из UniProtKB.

База данных UniRef100 сочетает идентичные последовательности и фрагменты последовательности (от 11 или более остатков) в одной записи UniRef. UniRef90 построен путем объединения UniRef100 последовательностей с помощью алгоритма CD-HIT, при этом каждый кластер состоит из последовательностей, которые имеют ~90% идентичности с самой длинной последовательностью. Аналогично UniRef50 построен путем объединения UniRef90 последовательностей, которые имеют ~50% идентичности с самой длинной последовательностью.[1]

Кластеризация последовательностей значительно уменьшает размер базы данных. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надёжность поиска далёких родственных белков.

Результаты поиска представлены в таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок DDL_LEUMM
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_Q03ZI1 Cluster: D-alanine--D-alanine ligase 3
UniRef90 UniRef90_Q03ZI1 Cluster: D-alanine--D-alanine ligase 13
UniRef50 UniRef50_Q03ZI1 Cluster: D-alanine--D-alanine ligase 391

Примечательно, что 50% идентичность характерна для D-аланин-D-аланиновых лигаз некоторых подвидов бактерий из родов Pediococcus, Lactobacillus, Leuconostoc(к нему относится исследуемый организм). Все они относятся к молочнокислым бактериям. При требовании в 90% и 100% идентичности круг сужается до вида Leuconostoc mesenteroides.

Сеансы поиска в UniProt

Для знакомства с синтаксисом запросов в UniProt были проведены следующие сеансы поиска.

Поиск D-аланин-D-аланиновой лигазы

Поиск гомеобоксов

Поиск трипсинов

По запросу "трипсин" поиск выдает в том числе ингибиторы трипсина. Поэтому был проведен отдельный сеанс поиска, исключающий ингибиторы. Любопытно, что ингибиторы составляют 20% от результатов первого поиска, при этом составляя 67% от белков со статусом "Reviewed". Думаю, ингибиторы трипсина представляют больший интерес для изучения, нежели сами трипсины.

Ключи таблицы локальных особенностей

FT(Feature Table) предоставляет информацию о наиболее интересных участках последовательности. В лаблицу локальных особенностей включаются посттрансляционные модификации, центры связывания, активные центры ферментов, элементы вторичной структуры белка и многое другое. Искать информацию о данных явлениях удобно на портале ExPASy. Например, ключ NON_STD описывает вхождение в состав белка нестандартных аминокислотных остатков (пирролизин, селеноцистеин).

FT     NON_STD      52      52     Selenocysteine

FT     NON_STD      356   356    Pyrrolysine. {ECO:0000250}

История изменений записи Uniprot

На странице белка в Uniprot в разделе с общей информацией можно проследить историю внесения дополнений и корректировок в запись белка. В запись исследуемого мною фермента изменения вносились 91 раз, начиная с 14 декабря 2014 года. При этом сама последовательность после этой даты изменениям не подвергалась, а только шло пополнение записи новыми данными. С 15 января 2008 данные о ферменте проверяются кураторами и принадлежат Swiss-Prot. C этого момента появились пометка Reviewed и поля FT с локальными особенностями белка. Все дальнейшие корректировки были небольшими и касались, в основном, полей FT и DR.

[1]Кластеры UniRef

[2]Uniprot

[3]ExPASy