UniProt

Home	About	Materials	FBB site

Блок 1: 3D структуры белков

Практикум 1. Визуализация молекул в JMol

Таблица 1. Описание белка DdrB, связывающего одноцепочечную ДНК, из генома бактерии *Deinococcus radiodurans*
UniProt ID	DDRB_DEIRA
UniProt AC	Q9RY80
RefSeq ID	NP_293796.1
PDB ID	4HQB ; 4NOE
Длина	188 aa
Молекулярная масса	20830 Da
Рекомендуемое UniProt название	Single-stranded DNA-binding protein DdrB

Комментарий к таблице:

Белок DdrB, связывающий одноцепочечную ДНК, - это полипептид, который участвует в обеспечении резистентности бактерии Deinococcus radiodurans по отношению к ионизирующей радиации. Он необходим для восстановления после жесткой геномной фрагментации, вызванной высоким уровнем радиации. Этот белок стимулирует присоединение комплементарной цепи ДНК. По структуре это гомопентамер, организованный в кольцевидную структуру, ДНК же прикрепляется между пятью субъедницами и вдоль верхушки кольца. Существование белка подтверждено масс-спектрометрией и рентген-структурным анализом (experimental evidence at protein level).

Из 188 аминокислотных остатков, составляющих данный белок, структура PDB известна лишь для а.о. с 1 по 144, то есть, что представляет собой оставшаяся часть полипептида с а.о. со 145 по 188 - неизвестно. Есть две записи PDB, соответствующие белку: одна более старая, 2013 года - 4hqb, а другая чуть новее, 2015 года - 4noe. В принципе они предоставляют довольно схожую информацию, отличаются в небольших деталях. Интересно, что на странице этих записей PDB указана длина белка в 148 а.о., а вовсе не 144, как можно было предполагать. Честно говоря, данная несостыковка поставила меня в тупик: откуда взялись еще 4 а.о.? Также, помимо самого белка, представленного пятью цепями (A, B, C, D, E), в записи PDB входят искусственно синтезированные куски одноцепочечной ДНК, и они обозначены отдельными цепями (F, M и N). Видимо, исследователи ввели их для того, чтобы посмотреть в 3D, как именно белок будет связывать ДНК.

Описание кластеров UniRef

Кластеры UniRef50.
Идентификатор кластера: UniRef50_Q9RY80
Количество белков в кластере: 21

Кластеры UniRef90.
Идентификатор кластера: UniRef90_Q9RY80
Количество белков в кластере: 3

Кластеры UniRef100.
Идентификатор кластера: UniRef100_Q9RY80
Количество белков в кластере: 2

Комментарии:
Все представленные кластеры называются одинаково: Single-stranded DNA-binding protein DdrB. Во всех трех кластерах репрезентативной последовательностью выбран именно наш белок с UniProt AC Q9RY80. В кластерах встречаются белки только из организмов рода Deinococcus, но из различных видов.
Кластер UniRef100 (порог идентичности - 100%) включает всего 2 белка, один из который полностью включает в себя наш репрезентативный белок Q9RY80, состоит из 199 а.о. и принадлежит тому же организму - Deinococcus radiodurans. Возможно, это просто ошибка аннотации, а возможно, произошла дупликация гена данного белка в ДНК бактерии с некими инсерциями.

Результаты сеансов поиска в UniProt

Поиск по рекомендованному названию

Текст запроса	name:"single stranded dna binding protein ddrb"
Количество белков	5
Из раздела reviewed (Swiss-Prot)	2
Из раздела unreviewed (TrEMBL)	3

Поиск среди белков своего организма

Текст запроса	name:"single stranded dna binding protein ddrb" organism:"deinococcus radiodurans"
Количество белков	1
Из раздела reviewed (Swiss-Prot)	1
Из раздела unreviewed (TrEMBL)	0

Поиск среди белков из организмов того же семейства

Текст запроса	name:"single stranded dna binding protein ddrb" taxonomy:deinococcaceae
Количество белков	5
Из раздела reviewed (Swiss-Prot)	2
Из раздела unreviewed (TrEMBL)	3

Поиск среди белков из организмов того же отдела

Текст запроса	name:"single stranded dna binding protein ddrb" taxonomy:"deinococcus thermus"
Количество белков	5
Из раздела reviewed (Swiss-Prot)	2
Из раздела unreviewed (TrEMBL)	3

Комментарии:
Все белки, которые имеют статус reviewed, имеют доказательство на уровне белка. Остальные (unreviewed) - предсказаны. Можно заметить, что в пределе отдела Deinococcus-Thermus белки с данным названием имеют только представители семейства Deinococcaceae, а если говорить еще точнее - только представители рода Deinococcus (проверено отдельно).

Поиск по лизоциму

Текст запроса	name:lysozyme
Количество белков	24247
Из раздела reviewed (Swiss-Prot)	239
Из раздела unreviewed (TrEMBL)	24008

Поиск по лизоциму у членистоногих (Arthropoda)

Текст запроса	name:lysozyme taxonomy:arthropoda
Количество белков	955
Из раздела reviewed (Swiss-Prot)	18
Из раздела unreviewed (TrEMBL)	937

Поиск по лизоциму у грибов (Fungi)

Текст запроса	name:lysozyme taxonomy:fungi
Количество белков	293
Из раздела reviewed (Swiss-Prot)	2
Из раздела unreviewed (TrEMBL)	291

Поиск по лизоциму у грибов и у членистоногих (есть либо у тех, либо у других)

Текст запроса	name:lysozyme (taxonomy:fungi OR taxonomy:arthropoda)
Количество белков	1248
Из раздела reviewed (Swiss-Prot)	20
Из раздела unreviewed (TrEMBL)	1228

Поиск по трипсину

Текст запроса	name:trypsin
Количество белков	18951
Из раздела reviewed (Swiss-Prot)	311
Из раздела unreviewed (TrEMBL)	18640

Поиск по ингибиторам трипсина

Текст запроса	name:trypsin name:inhibitor
Количество белков	3914
Из раздела reviewed (Swiss-Prot)	210
Из раздела unreviewed (TrEMBL)	3704

Сравнение RefSeq и UniProt

В RefSeq данный белок скромно и неуверенно назвали "hypothetical protein DR_0070", хотя в разделе note можно заметить запись "DdrB-like protein".
Есть различие и в длине самого белка: если в UniProt он состоял из 188 а.о., то в RefSeq он составляет 199 а.о. Кажется, где-то нам уже встречалась цифра 199... Бинго! Это было, когда мы анализировали кластер из UniRef100, в нем состоял именно этот белок с RefSeq ID NP_293796. Но если в качестве репрезентативного образца для всех кластеров был взят 188-аминокислотный белок, то это означает, как мне кажется, что в RefSeq не очень-то достоверные сведения: ведь возможно, что 199 а.о. - это ошибка аннотации.
И, наконец, в UniProt объективно больше сведений о белке: есть и подробное описание функции, и строение субъединиц, и информация о регуляции экспрессии, и вообще очень проработана графа CC в аннотации. В UniProt больше ссылок на статьи, чем в RefSeq. И есть много полезной информации в FT: влияние точечных мутаций на изменение функции белка; взятые из PDB данные о 3D-структуре белка. Всё это позволяет сделать осознанный выбор в пользу UniProt.

История записи UniProt

Для данной задачи был взят белок D1 фотосистемы II из организма мха Selaginella uncinata (Photosystem II protein D1, UniProt AC Q2WGI0). В истории изменения этой записи лежат 63 варианта. Самый первый появился в 2006 году, самый последний и ныне актуальный - 28 февраля 2018 (свежак!). Легко заметить, что у записи существовало как бы два периода: до того, как она стала "reviewed" (то есть аннотирована вручную), и после. Это знаменательное событие случилось в июне 2008 года, тогда же запись сменила идентификатор с Q2WGI0_SELUN на PSBA_SELUN и была перенесена из TrEMBL в Swiss-Prot, как любая порядочная аннотированная запись. Тогда же она прибавила приличное количество информации в графе FT (feature table).

Как представлены в записи UniProt некоторые явления

Нестандартные аминокислотные остатки
В графе sequence (SQ) используется однобуквенный код U для селеноцистеина и O для пирролизина. В графе FT пишут NON_STD, указывают позицию аминокислотного остатка в составе белка и пишут, какой именно там нестандартный остаток. В не-текстовом формате это выглядит как Feature key: Non-standard residue. Также, если в белке есть нестандартный а.о., название данного остатка (selenocysteine / pyrrolysine) указывают в Keywords - Coding sequence diversity, чтобы это можно было использовать при расширенном поиске.

Альтернативный сплайсинг
В графе sequences указывается количество различных изоформ белка, приводится последовательность аминокислот для каждого из них (либо приводится только для первой/самой распространенной изоформы, а для остальных уточняется, чем они отличаются), а также их идентификаторы, названия, описание последовательностей. Функции каждой изоформы приводятся в графе function.

Посттрансляционные модификации
Указаны в разделе PTM / Processing. Amino acid modifications включают в себя модифицирование остатков (modified residue): фосфорилирование (например, phosphoserine) и ацетилирование (например, N6-acetyllysine); а также так называемые cross-link (насколько я поняла, сшивки между а.о. разных цепей). В подразделе Post-translational modification подробно расписываются функции выявленных посттрансляционных модификаций.