Начало работы с UniProt

В ходе практикума я познакомилась с UniProt и, в частности, с Swiss-Prot и TrEMBL, изучила различия между ними. Узнала о кластерах UniRef и их характеристиках. Научилась выполнять поиск нужных последовательностей исходя из разных запросов.

Получение информации о белке DFX_DESB2

Получены идентификаторы десульфоферродоксина в разных базах данных (UniProt, RefSeq и PDB), найдены длина белка и его молекулярная масса. Полученная информация представлена в таблице 1.

Таблица 1. Основная информация о белке DFX_DESB2 из UniProt.
UniProt ID UniProt AC RefSeq ID PDB ID Длина белка (а.о.) Молекулярная масса (Да) Рекомендуемое название
DFX_DESB2 Q46495 WP_013258856.1 2JI1, 2JI2, 2JI3, 1VZG, 1VZH, 1VZI 126 14157 Full=Desulfoferrodoxin; Short=Dfx

Десульфоферродоксин входит в класс оксидоредуктаз, в котором выделяют 22 подкласса в зависимости от акцептора электронов. Данный белок принадлежит к подклассу КФ 1.15 (о чем можно судить по его EC=1.15.1.2). Белки этого подкласса называют супероксид-редуктазами, то есть акцепторами электронов служат супероксид-радикалы. [1],[2]
Белок представлен в PDB четырьмя цепями (A, B, C, D). У десульфоферродоксина 3 уникальных лиганда: ион кальция (СA) на цепях А и С, ион трехвалентного железа (FE) на цепях A, B, C и D и ион двухвалентного железа (FE2) также на всех четырех цепях.
Разрешение белка в PDB составляет 1.7 Å. Десульфоферродоксин исследован методом рентгеноструктурного анализа, кристаллизован при температуре 100 ℃ и pH=9. Структура известна для всего белка и его даже синтезируют в организме Escherichia coli DH5[alpha]. [3]
В ходе выполнения задания 1 я познакомилась с разнообразием классификаций белков в разных базах данных.

Поиск белка DFX_DESB2 в UniRef

Найден идентификатор белка в базе данных UniRef, а также названия и размер кластеров, содержащих этот белок. С результатами можно ознакомиться в таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок DFX_DESB2
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_Q46495 Desulfoferrodoxin 1
UniRef90 UniRef90_Q46495 Desulfoferrodoxin 3
UniRef50 UniRef50_Q46495 Desulfoferrodoxin 573

С UniRef оказалось на удивление приятно работать. В столбце "Cluster ID" можно найти название кластера, а в столбце "Size" - размер кластера. По многим причинам одна и та же последовательность может попасть базу данных несколько раз. Для борьбы с избыточностью в UniRef были введены кластеры близких последовательностей UniRef50, UniRef90, UniRef100.
Принципиальные различия между этими кластерами заключаются в том, что UniRef100 объединяет идентичные последовательности и субфрагменты с 11 или более остатками из любого организма в одну запись UniRef, UniRef90 создается путем кластеризации последовательностей UniRef100 таким образом, что каждый кластер состоит из последовательностей, которые идентичны самой длинной последовательности по крайней мере на 90% и на 80% перекрываются с ней, UniRef50 создается путем кластеризации последовательностей из UniRef90, по меньшей мере на 50% идентичных самой длинной последовательностью в кластере и 80% перекрывающихся с ней. [4]
Любопытно, что кластер UniRef100_Q46495 представлен единственным белком - рассматриваемым в практикуме - десульфоферродоксином. Кластер UniRef90_Q46495 немногим больше предыдущего и содержит 3 белка. Однако кластер UniRef50_Q46495 представлен уже 573 белками. На данный момент я испытываю трудности с интерпретацией полученных результатов.

Сеансы поиска в UniProt

Для знакомства с синтаксисом запросов в UniProt были проведены сеансы поиска, представленные ниже. Использованы логические операции AND, NOT. Операция OR не пригодилась для выполнения задания.

Поиск десульфоферродоксина

Поиск гомеобоксов

Поиск трипсинов

Результаты поиска показали, что банк Swiss-Prot, по сравнению с TrEMBL действительно несравнимо мал (нетрудно посчитать, что число белков в Swiss-Prot составляет лишь 0,381% от общего количества белков в базе UniProt).
Десульфоферродоксин - очень специфичный белок, и встречается в семействе Desulfarculus лишь единожды, как и в отделе Desulfarculaceae, по данным UniProt. Во всех случаях в Swiss-Prot нашелся только 1 белок.
Гомеобоксы — последовательности ДНК, обнаруженные в генах, вовлечённых в регуляцию развития у животных, грибов и растений. Эти гены кодируют факторы транскрипции, которые, как правило, переключают каскады других генов. Гомеобокс состоит приблизительно из 180 пар нуклеотидов и кодирует белковый домен длиной в 60 аминокислот (гомеодомен), который может связывать ДНК. [5]
Количество гомеобоксов в Swiss-Prot составило 2,4% от общего числа находок, что очень мало и коррелирует со сказанным выше. При этом гомеобоксы позвоночных (Vertebrata) составляют 65,3% от общего количества без ограничения на организмы. Однако доля гомеобоксов в Swiss-Prot для позвоночных равна 2,6% от общего числа находок по запросу.
Стоит обратить внимание на то, что для такого большого отдела как бурые водоросли (Phaeophyceae) среди всех гомеобоксов не найдено ни одного в Swiss-Prot. Это объясняется тем, что гомеозисные гены растений не гомологичны Hox-генам животных и содержат не гомеобокс, а другую негомологичную ему последовательность примерно из 168-180 п.н., и называется она MADS-box.
Трипсин — фермент класса гидролаз, расщепляющий пептиды и белки; обладает также эстеразной (гидролиз сложных эфиров) активностью. Активность трипсина подавляется фосфорорганическими соединениями, некоторыми металлами, а также рядом высокомолекулярных белковых веществ — ингибиторов трипсина, содержащихся в тканях животных, растений и микроорганизмов. [6]
Общее число находок по слову "trypsin" составило 23,018, из них 1,4% представлено в Swiss-Prot. Среди результатов поиска в UniProtKB были также и ингибиторы трипсина в количестве 4748 последовательностей. Среди только трипсинов 0,55% общего числа находок приходится на Swiss-Prot, остальное - TrEMBL.

Различия в записях UniProt и RefSeq Protein

В таблице 3 приведено сравнение записи белка в разных базах данных. [7], [8]

Таблица 3. Различия в записях UniProt и RefSeq Protein.
RefSeq Protein UniProt
Последовательность белка Расписана как в формате fasta по 60 символов в строке Каждый новый десяток символов отделяется пробелом
Лиганды Почти нет информации Много сведений, в т. ч. структурные формулы
Упоминание о мутагенезе Нет Присутствует
Апплет Нет Присутствует
Ссылка на BRENDA Нет Присутствует
Информация о похожих белках Нет Присутствует
Описание статей и их авторов Присутствует Нет (но есть ссылки)

На основании сравнения записей белка в UniProt и RefSeq Protein можно сделать вывод, что в UniProt информация представлена полнее, по сравнению с RefSeq Protein в этой базе данных больше ссылок на различные источники, больше дополнительных сведений о белке (таких, например, как мутагенез и похожие белки). В то время как в RefSeq Protein данные более структурированны, и поэтому в них легче ориентироваться. Однако UniProt нагляднее, поскольку содержит апплет, иллюстрирующий структуру белка.

Таким образом, стоит пользоваться RefSeq Protein в том случае, когда необходимо быстро найти основные сведения о белке, а UniProt - когда нужно узнать о нем больше, увидеть своими глазами его структуру.

История изменений записи UniProt

С помощью кнопки History на странице белка в UniProt найдена история изменений записи о нем. Затем с помощью функции "compare" проведено сравнение различных [не всех] версий

Описание результатов. [9]

→ В ноябре 1996 запись была добавлена в TrEMBL и претерпела затем 3 изменения. Сначала в 1997 был изменен источник литературы (поле RL), затем существенных изменений в TrEMBL не происходило.
В декабре 1998 запись была добавлена в Swiss-Prot.
→ В 1999 была добавлена информация о семействе белка (Desulfoferrodoxin family), добавлены ключевые слова (KW: ELECTRON TRANSPORT, IRON), изменена строка DR (перекрестная ссылка на базу данных).
→ В 2000 изменено 64-битное значение последовательности CRC и добавлен идентификатор в PubMed.
→ В 2001 изменены строки группы "R..." (цитаты из литературы), добавилось описание белка (строка CC), пополнилась в строке KW добавилось ключевое слово "oxidoreductase". В строку FT (Feature table) добавились мутагенные свойства.
→ В 2002 была уточнена систематика бактерии, несущей ген белка, добавлены строки DR.
→ В 2003 было пополнено описание белка.
→ В 2004 пополнена информация в строках группы "R...", добавлены строки СС - информация о кофакторе, в строках FT добавилась информация об ионах железа (II и III).
В 2005 добавилось большое количество строк FT, отражающих 3D-структуру белка, новые ключевые слова (KW) "transport", "3D-structure", "Iron", "Metal-binding".
→ В 2006 были добавлены строки группы "R..." с информацией об сследованиях белка, строки СС с информацией о кофакторах и разнообразных (miscellaneous) свойствах. Строки FT были удалены и заменены новыми (информация не изменилась, не очень понятно, для чего это было сделано).
→ В 2007 добавилась строка СС о том, что сначала ошибочно предполагалось, что десульфоферродоксин - это рубредоксин оксидоредуктаза. Добавлены строки DR о рентгеноструктурном анализе. Добавлены FT-строки и изменена строка SQ, отражающая аминокислотную последовательность белка.
→ В 2008 добавлены строки DR, строки FT удалены и заменены новыми с некоторыми изменениями сведений о 3D-структуре.
→ В 2009 строки группы "O..." изменены, вероятно, в связи с изменением систематического положения бактерии Desulfarculus baarsii 2075. Несколько изменены DR-строки (удалены и заменены новыми).
→ В 2010 добавлены новые DR-строки.
В 2011 добавлен второй номер доступа (E1QI98), уточнен EC белка. Добавлена статья и ее авторыв строках "R...", изменены строки RN, добавлена информация о каталитической активности.
→ В 2012 добавлены DR-строки.
→ В 2013 добавлены новые "R..." (цитаты из литературы) и DR-строки.
→ В 2014 добавлены строки СС о кофакторах и свидетельстве белка, добавлены ссылки на PubMed и изменены строки FT аналогично тому, как это было в 2009.
→ С 2015 по 2017 изменялись только DR-строки и незначительно "R...".
→ В 2018 добавлены СС строки о каталитической активности.
→ В 2019 изменена 1 DR-строка.

На основании анализа изменений, внесенных в запись о белке за все 23 года ее существования, можно выделить несколько ключевых дат:
○ 1996 - создание в TrEMBL;
○ 1998 - создание в Swiss-Prot;
○ 2005 - появление информации о 3D-структуре;
○ 2011 - получение второго номера доступа в Swiss-Prot.

Изучение ключей таблицы локальных особенностей (Feature Table)

Информация по FT найдена в пользовательской инструкции к UniProt, загруженой при нажатии кнопки Help на стартовой странице. [10], [11]

Строки FT, или Feature table (таблица характеристик), являются точным, но простым средством для организации данных о последовательности. Здесь могут быть представлены регионы/сайты, которые могут представлять интерес в последовательности. В общем, в таблице характеристик FT могут быть перечислены посттрансляционные модификации, сайты связывания, локальная вторичная структура, а также другие характеристики, указанные в цитированных ссылках (строки группы "R..."). Также в таблицу могут быть включены конфликты последовательностей между разными ссылками.
Строки FT имеют фиксированный формат, типы данных привязаны к номерам столбцов в записи (см таблицу 4).

Таблица 4. Типы данных в FT.
Columns Data item
1-2 FT
6-13 Key name
15-20 'From' endpoint
22-27 'To' endpoint
35-75 Description

Имя ключа и конечные точки всегда находятся в одной строке, однако для описания могут потребоваться дополнительные строки, и в этом случае дополнительные строки будут содержать пробелы в столбцах 3-34, а описание будет начинаться со столбца 35, и так далее столько строк, сколько потребуется. Так, пустой ключ всегда значит, что данная строка является продолжением предыдущего описания.
Первый элемент строки FT - это всегда имя ключа, фиксированное (меньше 8 символов) сокращение. Поля TO и FROM означают конечные точки объекта (всегда включительно), выражаемые в номерах остатков в последовательности. Стоит заметить, что одинаковые цифры в столбцах FROM и TO значат, что исследуемый ключ представлен одним остатком. Остальная (с 35 столбца) часть строки - это описание, содержащее дополнительную информацию о характеристике. Некоторые характеристики связаны с уникальным идентификатором FTId, который позволяет создавать ссфлки непосредственно из аннотации в FT к специализированным базам данных, связанных с белками. FTId - всегда последний компонент строки FT в поле описания. Формат характеристики с идентификатором:
FT KEY_NAME x x [Description.]
FT /FTId=XXX_number
XXX - это специальный трехбуквенный код, отделенный симфолом нижнего подчеркивания от 6-10-значного номера.

Ниже приведен пример строк FT из записи десульфоферродоксина DFX_DESB2 в UniProt.
FT INIT_MET 1 1 Removed. {ECO:0000269|PubMed:10617593}.
FT. старт.метионин 1-й номер. удален из последовательности
FT CHAIN 2 126 Desulfoferrodoxin.
FT. цепь со 2-го по 126 ост. собственно десульфоферродоксин
FT /FTId=PRO_0000140863.
FT пустые 3-34 строки, продолжение описания предыдущей записи
FT METAL 10 10 Iron 1.
FT металл железо

На основании написанного выше можно заключить, что формат строк FT четко фиксирован и позволяет всегда узнать к какому типу данных относится информация в этих строках.

Сопроводительные материалы

Запись десульфоферродоксина в UniProt
Скачать запись белка в формате PDB
[1] Про классы оксидоредуктаз
[2] Про оксидоредуктазы
[3] Про десульфоферродоксин в PDB
[4] Кластеры в UniRef
[5] Про гомеобокс
[6] Про трипсин [7] Про десульфоферродоксин в RefSeq Protein [8] Про белок в UniProtKB
[9] История изменений записи UniProt
[10] Руководство к чтению файлов Uniport
[11] FT-line (Feature line)