Практикум #5. Uniprot
12 марта 2019 г.
Знакомство с UniProt
Данный практикум посвящен работе с базой данных UniProt — открытой базой данных последовательностей белков.
1. Информация о белке HCS_KITSK
Как ее получили?
Сначала нашли свой белок в базе UniProt. Перешли на страницу белка, открыли текстовый режим
отображения информации. Нашли информацию для таблицы из полей DE (рекомендуемое название),
DR(идентификаторы PDB и RefSeq), SQ (длина в аминокислотных остатках и молекулярная масса (MW) в
дальтонах). Полученная информация представлена в таблице 1.
UniProt ID | HCS_KITSK |
---|---|
UniProt AC | E4MYY0 |
Название белка | (2Z,6E)-hedycaryol synthase |
RefSeq ID | WP_014133196.1 |
PDB ID | 4MC0, 4MC3, 4MC8 |
Длина белка (а.о.) | 338 |
Молекулярная масса (Да) | 37 591 |
Рекомендуемое название | (2Z,6E)-hedycaryol synthase |
Небольшая информация о белке
Данный белок —
гомодимер, является ферментом, который катализирует превращение (2E,6E)-фарнезил дифосфата
(FPP) в (2Z,6E)-хедикариол посредством 1,11-циклизации. Этот фермент включён в процесс
биосинтеза терпеноидов, который является частью синтеза вторичных метаболитов у бактерии Kitasatospora
setae.
Выводы
Для всего белка HCS_KITSK структура известна. В записях PDB она представлена одной цепью.
Интересно, что в первой записи белок A/B, а в двух более поздних (и более точных) — A. У белка
есть лиганд — Mg2+. Последовательность белков посадочного сайта лиганда критически
важна для работы фермента.
2. Поиск белка HCS_KITSK в UniRef
Что было сделано?
Для описания кластеров белка нашел по одному кластеру в UniRef50, UniRef90 и UniRef100 (поиск
через выбор базы). Полученная
информация представлена в таблице 2.
UniRef100 | UniRef90 | UniRef50 | |
---|---|---|---|
ID кластера | UniRef100_E4MYY0 | UniRef90_E4MYY0 | UniRef50_E4MYY0 |
Название кластера | Cluster: (2Z,6E)-hedycaryol synthase | Cluster: (2Z,6E)-hedycaryol synthase | Cluster: (2Z,6E)-hedycaryol synthase |
Размер кластера | 2 | 2 | 9 |
Вывод
Интересно, что белков, схожих с (2Z, 3E)-хедикариолсинтазой (HCS_KITSK) очень мало. Возможно, это
связано с функцией белка — синтезом вторичных метаболитов.
Идет ветер к югу, и переходит к северу,
кружится, кружится на ходу своем, и возвращается ветер на круги свои.
3. Сеансы поиска в UniProt.
Что было сделано?
В базе данных UniProt были осуществлены процедуры поиска белков через специальный синтаксис запросов (кнопка Advanced). Для знакомства с этим синтаксисом запросов в UniProt были проведены следующие
сеансы поиска.
Поиск (2Z, 3E)-хедикариолсинтазы
-
Поиск по рекомендованному полному названию белка: (2Z,6E)-hedycaryol synthase
Текст запроса: "name:"2z 6e hedycaryol synthase""
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
-
Поиск по рекомендованному сокращенному названию белка: HcS
Текст запроса: "name:hcs"
Количество находок в Swiss-Prot: 10
Общее количество находок: 65
-
Поиск по рекомендованному сокращенному названию белка: HcS;
и одновременно по организму Kitasatospora setaeТекст запроса: "name:hcs organism:"kitasatospora setae""
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
-
Поиск по рекомендованному сокращенному названию белка: HcS;
и одновременно по семейству StreptomycetaceaeТекст запроса: "name:hcs taxonomy:streptomycetaceae"
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
-
Поиск по рекомендованному сокращенному названию белка: HcS;
и одновременно по отделу ActinobacteriaТекст запроса: "name:hcs taxonomy:actinobacteria"
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
Поиск аллергенов
-
Поиск всех аллергенов
Текст запроса: "name:allergen"
Количество находок в Swiss-Prot: 483
Общее количество находок: 11 242
-
Поиск среди зеленых растений Viridiplantae
Текст запроса: "name:allergen taxonomy:viridiplantae"
Количество находок в Swiss-Prot: 309
Общее количество находок: 2 148
-
Поиск среди бурых водорослей Phaeophyceae
Текст запроса: "name:allergen taxonomy:phaeophyceae"
Количество находок в Swiss-Prot: 0
Общее количество находок: 1
Поиск трипсинов
-
Поиск трипсина без отсеивания ингибиторов
Текст запроса: "name:trypsin"
Количество находок в Swiss-Prot: 312
Общее количество находок: 23 018
-
Поиск трипсина с отсеиванием ингибиторов
Текст запроса: "name:trypsin NOT inhibitor"
Количество находок в Swiss-Prot: 95
Общее количество находок: 18 204
Вывод
Интересно, что белок (2Z,
3E)-хедикариолсинтаза (HCS_KITSK) пока что был найден только в одном организме. Но это и не
удивительно: ведь он
занимается синтезом вторичных метаболитов, которые могут быть уникальными.
Ведь среди всех записей UniProt нашлось всего 65 белков с рекомендованным сокращенным названием белка HcS.
4. Различия в записях UniProt и RefSeq Protein
Что было сделано?
Нашел запись RefSeq Protein, соответствующую
моему белку (UniProt).
О различиях
Главное различие — формат файлов. Обе системы используют обычные текстовые файлы (на RefSeq также
можно получить fasta-файл), структура у них схожая. Названия, идентификаторы, даты, информация о
происхождении белка (из какого организма был получен), а также таксономия расположены в верхней
части файла, в "шапке". Аминокислотные последовательности расположены внизу, в "подвале". Самые
главные различия локализованы где-то посередине. В RefSeq тут находятся небольшие и неизбыточные
сведения об отдельных частях белка, которые могут выполнять какую-либо функцию. Белок здесь может
быть аннотирован даже не одним геномом одного организма, а сразу несколькими. В UniProt все сложнее.
Здесь указаны авторы работы, название работы, метод, которым был исследован белок, описываются
другие результаты исследований, которые были проведены авторами (в моем случае это индуцированный
мутагенез). Также здесь для бактерии указывается штамм, функции белка, каталитическую активность,
кофакторы. Описывается, в каких метаболических путях участвует этот белок, тип четвертичной
структуры, схожесть с другими белками. Еще здесь есть дополнительная информация об особенностях
белка. Здесь указываются авторские права, указываются PDB идентификаторами, метод, которым была
получена запись и ее точность. Указывается длина белка, описывается его вторичная структура, участки
с функциональными особенностями.
Вывод
В общем, информация в UniProt более емкая, точная, и в некотором смысле, избыточная.
5. Обзор истории изменений записи Uniprot
Что было сделано?
Нашел историю записей UniProt моего белка.
Здесь есть кнопка "Compare", которой довольно удобно пользоваться.
Выполнение задания
Сравним,
например, самую первую и последнюю версии (от
2011-02-08 и 2019-02-13 соответсвенно)
В этих версиях очень много разичий. Изменился ID, запись переместилась из TrEMBL в Swiss-Prot
(2018-07-18), были даны рекомендованные имена (короткое и полное). Белок стали получать не только из
штамма KM-6054, добавили объемное описание белка.
Вывод
В общем, информации о белке стало в несколько раз больше.
6. Ключи таблицы локальных особенностей
Ключи таблицы локальных особенностей (Feature
Table) созданы для описания интересных областей или участков в последовательности белка, такие как
посттрансляционные модификации, сайты связывания, активные центры фермента и так далее.
Название поля для таблицы локальных особенностей в записи UniProt — FT.
Выполнение задания
Некоторые ключи для поля FT с ссылками на пример
представлены в таблице 3.
Особенность | Ключ | Пример |
---|---|---|
Нестандартные аминокислотные остатки | NON_STD | Селеноцистеин Пирролизин |
Посттрансляционная модификация | 1. INIT_MET 2. SIGNAL 3. LIPID 4. CARBOHYD 5. MOD_RES |
1. Отщепление инициаторного метионина 2. Сигнальный пептид 3. Липидирование 4. Гликозилирование 5. Модификация аминокислотного остатка |
Альтернативный сплайсинг | VAR_SEQ | Альтернативный сплайсинг |
Дисульфидные связи | DISULFID | Дисульфидная связь |
Варианты последовательности | VARIANT | Точечные мутации |
Вторичная структура | 1. HELIX 2. TURN 3. STRAND |
Пример
1. Спираль 2. Поворот 3. Бета-лист |
Конец
user@ubuntu:~$ Продолжение следует...