Знакомство с базой данных UniProt
В данном практическом задании мы учимся работать c банками последовательностей белков UniProt. Обращаем внимание на сходство и различие предоставляемой информации, а также на достоинства и недостатки каждого из банков.
Получение информации о белке DDL_LEUMM
В базе данных UniProt была получена информация о D-аланин-D-аланиновой лигазе из бактерии Leuconostoc mesenteroides subsp. mesenteroides ATCC 8293. Полученная информация отображена в таблице 1.
UniProt ID | DDL_LEUMM |
---|---|
UniProt AC | Q03ZI1 |
RefSeq ID | WP_011679162.1 |
PDB ID | 1EHI |
Длина белка (а.о.) | 377 |
Молекулярная масса (Да) | 41826 |
Рекомендуемое название | D-alanine--D-alanine ligase |
Согласно данным из банка UniProt, существование D-аланин-D-аланиновой лигазы экспериментально подтверждено на уровне белка. Исследуемый белок был вручную рассмотрен и аннотирован кураторами UniProtKB, то есть запись принадлежит Swiss-Prot (Январь 15, 2008). Данный фермент имеет 2 цепи (A/B), однако PDB структура существует только для цепи A.
Поиск белка DDL_LEUMM в UniRef
Кластер ссылок UniRef включает три базы данных (UniRef100, UniRef90 и UniRef50) и сформирован из наборов последовательностей из UniProtKB.
База данных UniRef100 сочетает идентичные последовательности и фрагменты последовательности (от 11 или более остатков) в одной записи UniRef. UniRef90 построен путем объединения UniRef100 последовательностей с помощью алгоритма CD-HIT, при этом каждый кластер состоит из последовательностей, которые имеют ~90% идентичности с самой длинной последовательностью. Аналогично UniRef50 построен путем объединения UniRef90 последовательностей, которые имеют ~50% идентичности с самой длинной последовательностью.[1]
Кластеризация последовательностей значительно уменьшает размер базы данных. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надёжность поиска далёких родственных белков.
Результаты поиска представлены в таблице 2.
Раздел UniRef | ID кластера | Название кластера | Размер кластера |
---|---|---|---|
UniRef100 | UniRef100_Q03ZI1 | Cluster: D-alanine--D-alanine ligase | 3 |
UniRef90 | UniRef90_Q03ZI1 | Cluster: D-alanine--D-alanine ligase | 13 |
UniRef50 | UniRef50_Q03ZI1 | Cluster: D-alanine--D-alanine ligase | 391 |
Примечательно, что 50% идентичность характерна для D-аланин-D-аланиновых лигаз некоторых подвидов бактерий из родов Pediococcus, Lactobacillus, Leuconostoc(к нему относится исследуемый организм). Все они относятся к молочнокислым бактериям. При требовании в 90% и 100% идентичности круг сужается до вида Leuconostoc mesenteroides.
Сеансы поиска в UniProt
Для знакомства с синтаксисом запросов в UniProt были проведены следующие сеансы поиска.
Поиск D-аланин-D-аланиновой лигазы
Поиск D-аланин-D-аланиновой лигазы по рекомендованному названию
Текст запроса: name:"d alanine d alanine ligase"
Количество находок в Swiss-Prot: 587
Общее количество находок: 39,262
Поиск D-аланин-D-аланиновой лигазы среди белков бактерии Leuconostoc mesenteroides subsp. mesenteroidesATCC 8293
Текст запроса: name:"d alanine d alanine ligase" organism:"leuconostoc mesenteroides subsp mesenteroides ATCC 8293"
Количество находок в Swiss-Prot: 1
Общее количество находок: 3
Поиск D-аланин-D-аланиновой лигазы среди бактерий семейства Leuconostocaceae
Текст запроса: name:"d alanine d alanine ligase" taxonomy:leuconostocaceae
Количество находок в Swiss-Prot: 4
Общее количество находок: 70
Поиск D-аланин-D-аланиновой лигазы среди бактерий отдела Firmicutes
Текст запроса: taxonomy:firmicutes name:"d alanine d alanine ligase"
Количество находок в Swiss-Prot: 135
Общее количество находок: 7,723
Поиск гомеобоксов
Поиск гомеобоксов без ограничения на организмы
Текст запроса: name:homeobox
Количество находок в Swiss-Prot: 1,396
Общее количество находок: 58,127
Поиск гомеобоксов среди белков Членистоногих (Arthropoda)
Текст запроса: taxonomy: arthropoda name:homeobox
Количество находок в Swiss-Prot: 57
Общее количество находок: 4,951
Поиск гомеобоксов среди белков Зелёных растений (Viridiplantae)
Текст запроса: taxonomy:viridiplantae name:homeobox
Количество находок в Swiss-Prot: 224
Общее количество находок: 8,587
Поиск трипсинов
Поиск по слову "трипсин"
Текст запроса: name:trypsin
Количество находок в Swiss-Prot: 312
Общее количество находок: 23,018
Поиск трипсинов, исключая их ингибиторы
Текст запроса: name:trypsin NOT name:inhibitor
Количество находок в Swiss-Prot: 101
Общее количество находок: 18,270
По запросу "трипсин" поиск выдает в том числе ингибиторы трипсина. Поэтому был проведен отдельный сеанс поиска, исключающий ингибиторы. Любопытно, что ингибиторы составляют 20% от результатов первого поиска, при этом составляя 67% от белков со статусом "Reviewed". Думаю, ингибиторы трипсина представляют больший интерес для изучения, нежели сами трипсины.
Ключи таблицы локальных особенностей
FT(Feature Table) предоставляет информацию о наиболее интересных участках последовательности. В лаблицу локальных особенностей включаются посттрансляционные модификации, центры связывания, активные центры ферментов, элементы вторичной структуры белка и многое другое. Искать информацию о данных явлениях удобно на портале ExPASy. Например, ключ NON_STD описывает вхождение в состав белка нестандартных аминокислотных остатков (пирролизин, селеноцистеин).FT NON_STD 52 52 Selenocysteine
FT NON_STD 356 356 Pyrrolysine. {ECO:0000250}