Блок 1: 3D структуры белковПрактикум 1. Визуализация молекул в JMol
Комментарий к таблице:Белок DdrB, связывающий одноцепочечную ДНК, - это полипептид, который участвует в обеспечении резистентности бактерии Deinococcus radiodurans по отношению к ионизирующей радиации. Он необходим для восстановления после жесткой геномной фрагментации, вызванной высоким уровнем радиации. Этот белок стимулирует присоединение комплементарной цепи ДНК. По структуре это гомопентамер, организованный в кольцевидную структуру, ДНК же прикрепляется между пятью субъедницами и вдоль верхушки кольца. Существование белка подтверждено масс-спектрометрией и рентген-структурным анализом (experimental evidence at protein level).Из 188 аминокислотных остатков, составляющих данный белок, структура PDB известна лишь для а.о. с 1 по 144, то есть, что представляет собой оставшаяся часть полипептида с а.о. со 145 по 188 - неизвестно. Есть две записи PDB, соответствующие белку: одна более старая, 2013 года - 4hqb, а другая чуть новее, 2015 года - 4noe. В принципе они предоставляют довольно схожую информацию, отличаются в небольших деталях. Интересно, что на странице этих записей PDB указана длина белка в 148 а.о., а вовсе не 144, как можно было предполагать. Честно говоря, данная несостыковка поставила меня в тупик: откуда взялись еще 4 а.о.? Также, помимо самого белка, представленного пятью цепями (A, B, C, D, E), в записи PDB входят искусственно синтезированные куски одноцепочечной ДНК, и они обозначены отдельными цепями (F, M и N). Видимо, исследователи ввели их для того, чтобы посмотреть в 3D, как именно белок будет связывать ДНК.
Описание кластеров UniRefКластеры UniRef50.Идентификатор кластера: UniRef50_Q9RY80 Количество белков в кластере: 21 Кластеры UniRef90. Идентификатор кластера: UniRef90_Q9RY80 Количество белков в кластере: 3 Кластеры UniRef100. Идентификатор кластера: UniRef100_Q9RY80 Количество белков в кластере: 2 Комментарии: Все представленные кластеры называются одинаково: Single-stranded DNA-binding protein DdrB. Во всех трех кластерах репрезентативной последовательностью выбран именно наш белок с UniProt AC Q9RY80. В кластерах встречаются белки только из организмов рода Deinococcus, но из различных видов. Кластер UniRef100 (порог идентичности - 100%) включает всего 2 белка, один из который полностью включает в себя наш репрезентативный белок Q9RY80, состоит из 199 а.о. и принадлежит тому же организму - Deinococcus radiodurans. Возможно, это просто ошибка аннотации, а возможно, произошла дупликация гена данного белка в ДНК бактерии с некими инсерциями.
Результаты сеансов поиска в UniProtПоиск по рекомендованному названию
Поиск среди белков своего организма
Поиск среди белков из организмов того же семейства
Поиск среди белков из организмов того же отдела
Комментарии: Все белки, которые имеют статус reviewed, имеют доказательство на уровне белка. Остальные (unreviewed) - предсказаны. Можно заметить, что в пределе отдела Deinococcus-Thermus белки с данным названием имеют только представители семейства Deinococcaceae, а если говорить еще точнее - только представители рода Deinococcus (проверено отдельно). Поиск по лизоциму
Поиск по лизоциму у членистоногих (Arthropoda)
Поиск по лизоциму у грибов (Fungi)
Поиск по лизоциму у грибов и у членистоногих (есть либо у тех, либо у других)
Поиск по трипсину
Поиск по ингибиторам трипсина
Сравнение RefSeq и UniProtВ RefSeq данный белок скромно и неуверенно назвали "hypothetical protein DR_0070", хотя в разделе note можно заметить запись "DdrB-like protein".Есть различие и в длине самого белка: если в UniProt он состоял из 188 а.о., то в RefSeq он составляет 199 а.о. Кажется, где-то нам уже встречалась цифра 199... Бинго! Это было, когда мы анализировали кластер из UniRef100, в нем состоял именно этот белок с RefSeq ID NP_293796. Но если в качестве репрезентативного образца для всех кластеров был взят 188-аминокислотный белок, то это означает, как мне кажется, что в RefSeq не очень-то достоверные сведения: ведь возможно, что 199 а.о. - это ошибка аннотации. И, наконец, в UniProt объективно больше сведений о белке: есть и подробное описание функции, и строение субъединиц, и информация о регуляции экспрессии, и вообще очень проработана графа CC в аннотации. В UniProt больше ссылок на статьи, чем в RefSeq. И есть много полезной информации в FT: влияние точечных мутаций на изменение функции белка; взятые из PDB данные о 3D-структуре белка. Всё это позволяет сделать осознанный выбор в пользу UniProt. История записи UniProtДля данной задачи был взят белок D1 фотосистемы II из организма мха Selaginella uncinata (Photosystem II protein D1, UniProt AC Q2WGI0). В истории изменения этой записи лежат 63 варианта. Самый первый появился в 2006 году, самый последний и ныне актуальный - 28 февраля 2018 (свежак!). Легко заметить, что у записи существовало как бы два периода: до того, как она стала "reviewed" (то есть аннотирована вручную), и после. Это знаменательное событие случилось в июне 2008 года, тогда же запись сменила идентификатор с Q2WGI0_SELUN на PSBA_SELUN и была перенесена из TrEMBL в Swiss-Prot, как любая порядочная аннотированная запись. Тогда же она прибавила приличное количество информации в графе FT (feature table).Как представлены в записи UniProt некоторые явленияНестандартные аминокислотные остаткиВ графе sequence (SQ) используется однобуквенный код U для селеноцистеина и O для пирролизина. В графе FT пишут NON_STD, указывают позицию аминокислотного остатка в составе белка и пишут, какой именно там нестандартный остаток. В не-текстовом формате это выглядит как Feature key: Non-standard residue. Также, если в белке есть нестандартный а.о., название данного остатка (selenocysteine / pyrrolysine) указывают в Keywords - Coding sequence diversity, чтобы это можно было использовать при расширенном поиске. Альтернативный сплайсинг В графе sequences указывается количество различных изоформ белка, приводится последовательность аминокислот для каждого из них (либо приводится только для первой/самой распространенной изоформы, а для остальных уточняется, чем они отличаются), а также их идентификаторы, названия, описание последовательностей. Функции каждой изоформы приводятся в графе function. Посттрансляционные модификации Указаны в разделе PTM / Processing. Amino acid modifications включают в себя модифицирование остатков (modified residue): фосфорилирование (например, phosphoserine) и ацетилирование (например, N6-acetyllysine); а также так называемые cross-link (насколько я поняла, сшивки между а.о. разных цепей). В подразделе Post-translational modification подробно расписываются функции выявленных посттрансляционных модификаций. |