Практикум #5. Uniprot

12 марта 2019 г.

Знакомство с UniProt

Данный практикум посвящен работе с базой данных UniProt — открытой базой данных последовательностей белков.

1. Информация о белке HCS_KITSK

Как ее получили?
Сначала нашли свой белок в базе UniProt. Перешли на страницу белка, открыли текстовый режим отображения информации. Нашли информацию для таблицы из полей DE (рекомендуемое название), DR(идентификаторы PDB и RefSeq), SQ (длина в аминокислотных остатках и молекулярная масса (MW) в дальтонах). Полученная информация представлена в таблице 1.

Таблица 1. Основная информация о белке HCS_KITSK из UniProt.
UniProt ID HCS_KITSK
UniProt AC E4MYY0
Название белка (2Z,6E)-hedycaryol synthase
RefSeq ID WP_014133196.1
PDB ID 4MC0, 4MC3, 4MC8
Длина белка (а.о.) 338
Молекулярная масса (Да) 37 591
Рекомендуемое название (2Z,6E)-hedycaryol synthase

Небольшая информация о белке
Данный белок — гомодимер, является ферментом, который катализирует превращение (2E,6E)-фарнезил дифосфата  (FPP) в (2Z,6E)-хедикариол посредством 1,11-циклизации. Этот фермент включён в процесс биосинтеза терпеноидов, который является частью синтеза вторичных метаболитов у бактерии Kitasatospora setae.

Выводы
Для всего белка HCS_KITSK структура известна. В записях PDB она представлена одной цепью. Интересно, что в первой записи белок A/B, а в двух более поздних (и более точных) — A. У белка есть лиганд — Mg2+. Последовательность белков посадочного сайта лиганда критически важна для работы фермента.

2. Поиск белка HCS_KITSK в UniRef

Что было сделано?
Для описания кластеров белка нашел по одному кластеру в UniRef50, UniRef90 и UniRef100 (поиск через выбор базы). Полученная информация представлена в таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок HCS_KITSK.
UniRef100 UniRef90 UniRef50
ID кластера UniRef100_E4MYY0 UniRef90_E4MYY0 UniRef50_E4MYY0
Название кластера Cluster: (2Z,6E)-hedycaryol synthase Cluster: (2Z,6E)-hedycaryol synthase Cluster: (2Z,6E)-hedycaryol synthase
Размер кластера 2 2 9

Вывод
Интересно, что белков, схожих с (2Z, 3E)-хедикариолсинтазой (HCS_KITSK) очень мало. Возможно, это связано с функцией белка — синтезом вторичных метаболитов.
Идет ветер к югу, и переходит к северу, кружится, кружится на ходу своем, и возвращается ветер на круги свои.

3. Сеансы поиска в UniProt.

Что было сделано?
В базе данных UniProt были осуществлены процедуры поиска белков через специальный синтаксис запросов (кнопка Advanced). Для знакомства с этим синтаксисом запросов в UniProt были проведены следующие сеансы поиска.

Поиск (2Z, 3E)-хедикариолсинтазы

  • Поиск по рекомендованному полному названию белка: (2Z,6E)-hedycaryol synthase

    Текст запроса: "name:"2z 6e hedycaryol synthase""
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  • Поиск по рекомендованному сокращенному названию белка: HcS

    Текст запроса: "name:hcs"
    Количество находок в Swiss-Prot: 10
    Общее количество находок: 65

  • Поиск по рекомендованному сокращенному названию белка: HcS;
    и одновременно по организму Kitasatospora setae

    Текст запроса: "name:hcs organism:"kitasatospora setae""
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  • Поиск по рекомендованному сокращенному названию белка: HcS;
    и одновременно по семейству Streptomycetaceae

    Текст запроса: "name:hcs taxonomy:streptomycetaceae"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  • Поиск по рекомендованному сокращенному названию белка: HcS;
    и одновременно по отделу Actinobacteria

    Текст запроса: "name:hcs taxonomy:actinobacteria"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

Поиск аллергенов

  • Поиск всех аллергенов

    Текст запроса: "name:allergen"
    Количество находок в Swiss-Prot: 483
    Общее количество находок: 11 242

  • Поиск среди зеленых растений Viridiplantae

    Текст запроса: "name:allergen taxonomy:viridiplantae"
    Количество находок в Swiss-Prot: 309
    Общее количество находок: 2 148

  • Поиск среди бурых водорослей Phaeophyceae

    Текст запроса: "name:allergen taxonomy:phaeophyceae"
    Количество находок в Swiss-Prot: 0
    Общее количество находок: 1

Поиск трипсинов

  • Поиск трипсина без отсеивания ингибиторов

    Текст запроса: "name:trypsin"
    Количество находок в Swiss-Prot: 312
    Общее количество находок: 23 018

  • Поиск трипсина с отсеиванием ингибиторов

    Текст запроса: "name:trypsin NOT inhibitor"
    Количество находок в Swiss-Prot: 95
    Общее количество находок: 18 204

Вывод
Интересно, что белок (2Z, 3E)-хедикариолсинтаза (HCS_KITSK) пока что был найден только в одном организме. Но это и не удивительно: ведь он занимается синтезом вторичных метаболитов, которые могут быть уникальными. Ведь среди всех записей UniProt нашлось всего 65 белков с рекомендованным сокращенным названием белка HcS.

4. Различия в записях UniProt и RefSeq Protein

Что было сделано?
Нашел запись RefSeq Protein, соответствующую моему белку (UniProt).

О различиях
Главное различие — формат файлов. Обе системы используют обычные текстовые файлы (на RefSeq также можно получить fasta-файл), структура у них схожая. Названия, идентификаторы, даты, информация о происхождении белка (из какого организма был получен), а также таксономия расположены в верхней части файла, в "шапке". Аминокислотные последовательности расположены внизу, в "подвале". Самые главные различия локализованы где-то посередине. В RefSeq тут находятся небольшие и неизбыточные сведения об отдельных частях белка, которые могут выполнять какую-либо функцию. Белок здесь может быть аннотирован даже не одним геномом одного организма, а сразу несколькими. В UniProt все сложнее. Здесь указаны авторы работы, название работы, метод, которым был исследован белок, описываются другие результаты исследований, которые были проведены авторами (в моем случае это индуцированный мутагенез). Также здесь для бактерии указывается штамм, функции белка, каталитическую активность, кофакторы. Описывается, в каких метаболических путях участвует этот белок, тип четвертичной структуры, схожесть с другими белками. Еще здесь есть дополнительная информация об особенностях белка. Здесь указываются авторские права, указываются PDB идентификаторами, метод, которым была получена запись и ее точность. Указывается длина белка, описывается его вторичная структура, участки с функциональными особенностями.

Вывод
В общем, информация в UniProt более емкая, точная, и в некотором смысле, избыточная.

5. Обзор истории изменений записи Uniprot

Что было сделано?
Нашел историю записей UniProt моего белка. Здесь есть кнопка "Compare", которой довольно удобно пользоваться.

Выполнение задания
Сравним, например, самую первую и последнюю версии (от 2011-02-08 и 2019-02-13 соответсвенно)
В этих версиях очень много разичий. Изменился ID, запись переместилась из TrEMBL в Swiss-Prot  (2018-07-18), были даны рекомендованные имена (короткое и полное). Белок стали получать не только из штамма KM-6054, добавили объемное описание белка.

Вывод
В общем, информации о белке стало в несколько раз больше.

6. Ключи таблицы локальных особенностей

Ключи таблицы локальных особенностей (Feature Table) созданы для описания интересных областей или участков в последовательности белка, такие как посттрансляционные модификации, сайты связывания, активные центры фермента и так далее.
Название поля для таблицы локальных особенностей в записи UniProt — FT.

Выполнение задания
Некоторые ключи для поля FT с ссылками на пример представлены в таблице 3.

Таблица 3. Ключи таблицы локальных особенностей с примерами.
Особенность Ключ Пример
Нестандартные аминокислотные остатки NON_STD Селеноцистеин
Пирролизин
Посттрансляционная модификация 1. INIT_MET
2. SIGNAL
3. LIPID
4. CARBOHYD
5. MOD_RES
1. Отщепление инициаторного метионина
2. Сигнальный пептид
3. Липидирование
4. Гликозилирование
5. Модификация аминокислотного остатка
Альтернативный сплайсинг VAR_SEQ Альтернативный сплайсинг
Дисульфидные связи DISULFID Дисульфидная связь
Варианты последовательности VARIANT Точечные мутации
Вторичная структура 1. HELIX
2. TURN
3. STRAND
Пример 1. Спираль
2. Поворот
3. Бета-лист

Конец
user@ubuntu:~$ Продолжение следует...