Начало работы с UniProt
В ходе практикума я познакомилась с UniProt и, в частности, с Swiss-Prot и TrEMBL, изучила различия между ними. Узнала о кластерах UniRef и их характеристиках. Научилась выполнять поиск нужных последовательностей исходя из разных запросов.
Получение информации о белке DFX_DESB2
Получены идентификаторы десульфоферродоксина в разных базах данных (UniProt, RefSeq и PDB), найдены длина белка и его молекулярная масса. Полученная информация представлена в таблице 1.
UniProt ID | UniProt AC | RefSeq ID | PDB ID | Длина белка (а.о.) | Молекулярная масса (Да) | Рекомендуемое название |
---|---|---|---|---|---|---|
DFX_DESB2 | Q46495 | WP_013258856.1 | 2JI1, 2JI2, 2JI3, 1VZG, 1VZH, 1VZI | 126 | 14157 | Full=Desulfoferrodoxin; Short=Dfx |
Десульфоферродоксин входит в класс оксидоредуктаз, в котором выделяют 22 подкласса в зависимости от акцептора электронов. Данный белок принадлежит к подклассу КФ 1.15 (о чем можно судить по его EC=1.15.1.2). Белки этого подкласса называют супероксид-редуктазами, то есть акцепторами электронов служат супероксид-радикалы. [1],[2]
Белок представлен в PDB четырьмя цепями (A, B, C, D). У десульфоферродоксина 3 уникальных лиганда: ион кальция (СA) на цепях А и С, ион трехвалентного железа (FE) на цепях A, B, C и D и ион двухвалентного железа (FE2) также на всех четырех цепях.
Разрешение белка в PDB составляет 1.7 Å. Десульфоферродоксин исследован методом рентгеноструктурного анализа, кристаллизован при температуре 100
℃ и pH=9. Структура известна для всего белка и его даже синтезируют в организме Escherichia coli DH5[alpha]. [3]
В ходе выполнения задания 1 я познакомилась с разнообразием классификаций белков в разных базах данных.
Поиск белка DFX_DESB2 в UniRef
Найден идентификатор белка в базе данных UniRef, а также названия и размер кластеров, содержащих этот белок. С результатами можно ознакомиться в таблице 2.
Раздел UniRef | ID кластера | Название кластера | Размер кластера |
---|---|---|---|
UniRef100 | UniRef100_Q46495 | Desulfoferrodoxin | 1 |
UniRef90 | UniRef90_Q46495 | Desulfoferrodoxin | 3 |
UniRef50 | UniRef50_Q46495 | Desulfoferrodoxin | 573 |
С UniRef оказалось на удивление приятно работать. В столбце "Cluster ID" можно найти название кластера, а в столбце "Size" - размер кластера. По многим причинам одна и та же последовательность может попасть базу данных несколько раз. Для борьбы с избыточностью в UniRef были введены кластеры близких последовательностей UniRef50, UniRef90, UniRef100.
Принципиальные различия между этими кластерами заключаются в том, что UniRef100 объединяет идентичные последовательности и субфрагменты с 11 или более остатками из любого организма в одну запись UniRef, UniRef90 создается путем кластеризации последовательностей UniRef100 таким образом, что каждый кластер состоит из последовательностей, которые идентичны самой длинной последовательности по крайней мере на 90% и на 80% перекрываются с ней, UniRef50 создается путем кластеризации последовательностей из UniRef90, по меньшей мере на 50% идентичных самой длинной последовательностью в кластере и 80% перекрывающихся с ней. [4]
Любопытно, что кластер UniRef100_Q46495 представлен единственным белком - рассматриваемым в практикуме - десульфоферродоксином. Кластер UniRef90_Q46495 немногим больше предыдущего и содержит 3 белка. Однако кластер UniRef50_Q46495 представлен уже 573 белками. На данный момент я испытываю трудности с интерпретацией полученных результатов.
Сеансы поиска в UniProt
Для знакомства с синтаксисом запросов в UniProt были проведены сеансы поиска, представленные ниже. Использованы логические операции AND, NOT. Операция OR не пригодилась для выполнения задания.
Поиск десульфоферродоксина
По рекомендованному названию
Текст запроса: name:dfx
Количество находок в Swiss-Prot: 9
Общее количество находок: 165
По рекомендованному названию среди белков Desulfarculus baarsii DSM 2075
Текст запроса: name:dfx AND organism:desulfarculus baarsii dsm 2075
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
По тому же названию среди белков из организмов того же семейства
Текст запроса: name:dfx AND taxonomy:desulfarculus
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
По тому же названию среди белков из организмов того же отдела
Текст запроса: name:dfx AND taxonomy:desulfarculaceae
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
Поиск гомеобоксов
Без ограничения на организмы
Текст запроса: name:homeobox
Количество находок в Swiss-Prot: 1,396
Общее количество находок: 58,127
У позвоночных
Текст запроса: name:homeobox AND taxonomy:vertebrata
Количество находок в Swiss-Prot: 994
Общее количество находок: 37,967
У бурых водорослей
Текст запроса: name:homeobox AND taxonomy:phaeophyceae
Количество находок в Swiss-Prot: 0
Общее количество находок: 0
Поиск трипсинов
Поиск по слову "трипсин"
Текст запроса: name:trypsin
Количество находок в Swiss-Prot: 312
Общее количество находок: 23,018
Поиск трипсинов, исключая их ингибиторы
Текст запроса: name:trypsin NOT name:inhibitor
Количество находок в Swiss-Prot: 101
Общее количество находок: 18,270
Результаты поиска показали, что банк Swiss-Prot, по сравнению с TrEMBL действительно несравнимо мал (нетрудно посчитать, что число белков в Swiss-Prot составляет лишь 0,381% от общего количества белков в базе UniProt).
Десульфоферродоксин - очень специфичный белок, и встречается в семействе Desulfarculus лишь единожды, как и в отделе Desulfarculaceae, по данным UniProt. Во всех случаях в Swiss-Prot нашелся только 1 белок.
Гомеобоксы — последовательности ДНК, обнаруженные в генах, вовлечённых в регуляцию развития у животных, грибов и растений. Эти гены кодируют факторы транскрипции, которые, как правило, переключают каскады других генов. Гомеобокс состоит приблизительно из 180 пар нуклеотидов и кодирует белковый домен длиной в 60 аминокислот (гомеодомен), который может связывать ДНК. [5]
Количество гомеобоксов в Swiss-Prot составило 2,4% от общего числа находок, что очень мало и коррелирует со сказанным выше. При этом гомеобоксы позвоночных (Vertebrata) составляют 65,3% от общего количества без ограничения на организмы. Однако доля гомеобоксов в Swiss-Prot для позвоночных равна 2,6% от общего числа находок по запросу.
Стоит обратить внимание на то, что для такого большого отдела как бурые водоросли (Phaeophyceae) среди всех гомеобоксов не найдено ни одного в Swiss-Prot. Это объясняется тем, что гомеозисные гены растений не гомологичны Hox-генам животных и содержат не гомеобокс, а другую негомологичную ему последовательность примерно из 168-180 п.н., и называется она MADS-box.
Трипсин — фермент класса гидролаз, расщепляющий пептиды и белки; обладает также эстеразной (гидролиз сложных эфиров) активностью. Активность трипсина подавляется фосфорорганическими соединениями, некоторыми металлами, а также рядом высокомолекулярных белковых веществ — ингибиторов трипсина, содержащихся в тканях животных, растений и микроорганизмов. [6]
Общее число находок по слову "trypsin" составило 23,018, из них 1,4% представлено в Swiss-Prot. Среди результатов поиска в UniProtKB были также и ингибиторы трипсина в количестве 4748 последовательностей. Среди только трипсинов 0,55% общего числа находок приходится на Swiss-Prot, остальное - TrEMBL.
Различия в записях UniProt и RefSeq Protein
В таблице 3 приведено сравнение записи белка в разных базах данных. [7], [8]
RefSeq Protein | UniProt | |
---|---|---|
Последовательность белка | Расписана как в формате fasta по 60 символов в строке | Каждый новый десяток символов отделяется пробелом |
Лиганды | Почти нет информации | Много сведений, в т. ч. структурные формулы |
Упоминание о мутагенезе | Нет | Присутствует |
Апплет | Нет | Присутствует |
Ссылка на BRENDA | Нет | Присутствует |
Информация о похожих белках | Нет | Присутствует |
Описание статей и их авторов | Присутствует | Нет (но есть ссылки) |
На основании сравнения записей белка в UniProt и RefSeq Protein можно сделать вывод, что в UniProt информация представлена полнее, по сравнению с RefSeq Protein в этой базе данных больше ссылок на различные источники, больше дополнительных сведений о белке (таких, например, как мутагенез и похожие белки). В то время как в RefSeq Protein данные более структурированны, и поэтому в них легче ориентироваться. Однако UniProt нагляднее, поскольку содержит апплет, иллюстрирующий структуру белка.
Таким образом, стоит пользоваться RefSeq Protein в том случае, когда необходимо быстро найти основные сведения о белке, а UniProt - когда нужно узнать о нем больше, увидеть своими глазами его структуру.
История изменений записи UniProt
С помощью кнопки History на странице белка в UniProt найдена история изменений записи о нем. Затем с помощью функции "compare" проведено сравнение различных [не всех] версий
Описание результатов. [9]
→ В ноябре 1996 запись была добавлена в TrEMBL и претерпела затем 3 изменения. Сначала в 1997 был изменен источник литературы (поле RL), затем существенных изменений в TrEMBL не происходило.
→ В декабре 1998 запись была добавлена в Swiss-Prot.
→ В 1999 была добавлена информация о семействе белка (Desulfoferrodoxin family), добавлены ключевые слова (KW: ELECTRON TRANSPORT, IRON), изменена строка DR (перекрестная ссылка на базу данных).
→ В 2000 изменено 64-битное значение последовательности CRC и добавлен идентификатор в PubMed.
→ В 2001 изменены строки группы "R..." (цитаты из литературы), добавилось описание белка (строка CC), пополнилась в строке KW добавилось ключевое слово "oxidoreductase". В строку FT (Feature table) добавились мутагенные свойства.
→ В 2002 была уточнена систематика бактерии, несущей ген белка, добавлены строки DR.
→ В 2003 было пополнено описание белка.
→ В 2004 пополнена информация в строках группы "R...", добавлены строки СС - информация о кофакторе, в строках FT добавилась информация об ионах железа (II и III).
→ В 2005 добавилось большое количество строк FT, отражающих 3D-структуру белка, новые ключевые слова (KW) "transport", "3D-structure", "Iron", "Metal-binding".
→ В 2006 были добавлены строки группы "R..." с информацией об сследованиях белка, строки СС с информацией о кофакторах и разнообразных (miscellaneous) свойствах. Строки FT были удалены и заменены новыми (информация не изменилась, не очень понятно, для чего это было сделано).
→ В 2007 добавилась строка СС о том, что сначала ошибочно предполагалось, что десульфоферродоксин - это рубредоксин оксидоредуктаза. Добавлены строки DR о рентгеноструктурном анализе. Добавлены FT-строки и изменена строка SQ, отражающая аминокислотную последовательность белка.
→ В 2008 добавлены строки DR, строки FT удалены и заменены новыми с некоторыми изменениями сведений о 3D-структуре.
→ В 2009 строки группы "O..." изменены, вероятно, в связи с изменением систематического положения бактерии Desulfarculus baarsii 2075. Несколько изменены DR-строки (удалены и заменены новыми).
→ В 2010 добавлены новые DR-строки.
→ В 2011 добавлен второй номер доступа (E1QI98), уточнен EC белка. Добавлена статья и ее авторыв строках "R...", изменены строки RN, добавлена информация о каталитической активности.
→ В 2012 добавлены DR-строки.
→ В 2013 добавлены новые "R..." (цитаты из литературы) и DR-строки.
→ В 2014 добавлены строки СС о кофакторах и свидетельстве белка, добавлены ссылки на PubMed и изменены строки FT аналогично тому, как это было в 2009.
→ С 2015 по 2017 изменялись только DR-строки и незначительно "R...".
→ В 2018 добавлены СС строки о каталитической активности.
→ В 2019 изменена 1 DR-строка.
На основании анализа изменений, внесенных в запись о белке за все 23 года ее существования, можно выделить несколько ключевых дат:
○ 1996 - создание в TrEMBL;
○ 1998 - создание в Swiss-Prot;
○ 2005 - появление информации о 3D-структуре;
○ 2011 - получение второго номера доступа в Swiss-Prot.
Изучение ключей таблицы локальных особенностей (Feature Table)
Информация по FT найдена в пользовательской инструкции к UniProt, загруженой при нажатии кнопки Help на стартовой странице. [10], [11]
Строки FT, или Feature table (таблица характеристик), являются точным, но простым средством для организации данных о последовательности. Здесь могут быть представлены регионы/сайты, которые могут представлять интерес в последовательности. В общем, в таблице характеристик FT могут быть перечислены посттрансляционные модификации, сайты связывания, локальная вторичная структура, а также другие характеристики, указанные в цитированных ссылках (строки группы "R..."). Также в таблицу могут быть включены конфликты последовательностей между разными ссылками.
Строки FT имеют фиксированный формат, типы данных привязаны к номерам столбцов в записи (см таблицу 4).
Columns | Data item |
---|---|
1-2 | FT |
6-13 | Key name |
15-20 | 'From' endpoint |
22-27 | 'To' endpoint |
35-75 | Description |
Имя ключа и конечные точки всегда находятся в одной строке, однако для описания могут потребоваться дополнительные строки, и в этом случае дополнительные строки будут содержать пробелы в столбцах 3-34, а описание будет начинаться со столбца 35, и так далее столько строк, сколько потребуется. Так, пустой ключ всегда значит, что данная строка является продолжением предыдущего описания.
Первый элемент строки FT - это всегда имя ключа, фиксированное (меньше 8 символов) сокращение. Поля TO и FROM означают конечные точки объекта (всегда включительно), выражаемые в номерах остатков в последовательности. Стоит заметить, что одинаковые цифры в столбцах FROM и TO значат, что исследуемый ключ представлен одним остатком. Остальная (с 35 столбца) часть строки - это описание, содержащее дополнительную информацию о характеристике. Некоторые характеристики связаны с уникальным идентификатором FTId, который позволяет создавать ссфлки непосредственно из аннотации в FT к специализированным базам данных, связанных с белками. FTId - всегда последний компонент строки FT в поле описания. Формат характеристики с идентификатором:
FT KEY_NAME x x [Description.]
FT /FTId=XXX_number
XXX - это специальный трехбуквенный код, отделенный симфолом нижнего подчеркивания от 6-10-значного номера.
Ниже приведен пример строк FT из записи десульфоферродоксина DFX_DESB2 в UniProt.
FT INIT_MET 1 1 Removed. {ECO:0000269|PubMed:10617593}.
FT. старт.метионин 1-й номер. удален из последовательности
FT CHAIN 2 126 Desulfoferrodoxin.
FT. цепь со 2-го по 126 ост. собственно десульфоферродоксин
FT /FTId=PRO_0000140863.
FT пустые 3-34 строки, продолжение описания предыдущей записи
FT METAL 10 10 Iron 1.
FT металл железо
На основании написанного выше можно заключить, что формат строк FT четко фиксирован и позволяет всегда узнать к какому типу данных относится информация в этих строках.
Сопроводительные материалы
Запись десульфоферродоксина в UniProtСкачать запись белка в формате PDB
[1] Про классы оксидоредуктаз
[2] Про оксидоредуктазы
[3] Про десульфоферродоксин в PDB
[4] Кластеры в UniRef
[5] Про гомеобокс
[6] Про трипсин [7] Про десульфоферродоксин в RefSeq Protein [8] Про белок в UniProtKB
[9] История изменений записи UniProt
[10] Руководство к чтению файлов Uniport
[11] FT-line (Feature line)