Знакомство с UniProt

В ходе выполнения практикума я познакомилась с базой данных о белках UniProt, форматом записи в ней и возможностями поиска.

Получение информации о белке GCH4_NITEU

Выданный мне белок был найден по его GenBank AC в базе данных UniProt с использованием формы Retrieve/ID mapping (from EMBL/GenBank/DDBJ CDS to UniProtKB). Результат поиска - отформатированная страница с записью о белке, была переведена в текстовый формат, который, хотя и менее приятен визуально, удобнее для анализа и поиска информации. Некоторые важные данные, полученные в результате поиска, представлены в таблице 1.

Таблица 1. Основная информация о белке GCH4_NITEU из UniProt.
UniProt ID GCH4_NITEU
UniProt AC Q82VD1
Название белка GTP cyclohydrolase FolE2 (EC=3.5.4.16)
RefSeq ID WP_011111754.1
PDB ID 2R5R
Длина белка (а.о.) 268
Молекулярная масса (Да) 30604
Рекомендуемое название GTP cyclohydrolase FolE2

К сожалению, в записи UniProt о моём белке не очень много информации, в частности, там упомянуты лишь две статьи, посвящённые ему, в одной из которых приведён полный анализ последовательности генома бактерии Nitrosomonas Europaea, а в другой кристаллическая структура фермента. В банке PDB существует всего одна структура энзима с разрешением 3.05 Å, полученная методом рентгеноструктурного анализа. Структура известна для всего белка (в pdb-структуре число аминокислотных остатков совпадает с указанной в базе длиной белка) и представлена в записи PDB одной цепью, состоящей из нескольких альфа-спиралей, бета-листов и поворотов. Существование белка было подтверждено его выделением и анализом аминокислотной последовательности. Превращает Гуанозинтрифосфат в 7,8-дигидронеоптеринтрифосфат в ходе реакции гидролиза, при этом разрушается пятичленный гетероцикл, относится к семейству циклогидролаз 4.

Поиск белка GCH4_NITEU в UniRef

Был проведён поиск по форме Retrieve/ID mapping (from UniProtKB AC/ID to UniRef100) с использованием UniProtID изучаемого белка, после перехода по ссылкам Expand cluster to 90% identity и Expand cluster to 50% identity были найдены записи о кластерах UniRef90 и UniRef50 соответственно. Кластеры представлены группами белков с определённым процентом схожести последовательности аминокислотных остатков, их изучение позволяет сделать выводы о распространённости белка, его уникальности для данного организма или группы, специфичности выполняемой им роли, гомологичности последовательности внутри группы родственных организмов. В случае моего фермента информация о кластерах могла быть получена в разделе Similar Proteins интерактивной (той, которая не в текстовом формате) страницы записи о белке в базе UniProt. На ней есть ссылки на все три кластера схожести, я предполагаю, что ссылок на некоторые кластеры может не быть в случае, если кластер очень обширен и назван в честь белка, принадлежащего не родственному организму. Результаты анализа найденных кластеров приведены в таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок GCH4_NITEU.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_Q82VD1 GTP cyclohydrolase FolE2 (100%) 3
UniRef90 UniRef90_Q82VD1 GTP cyclohydrolase FolE2 (90%) 7
UniRef50 UniRef50_Q5P229 GTP cyclohydrolase FolE2 (50%) 1484

В кластер со схожестью 100% попали белки организмов одного вида, из них два организма относятся к одному и тому же штамму, но выделенные из них белки имеют разную длину, один из них на 3 аминокислотных остатка длиннее изучаемого мною, он является seed sequence для этого кластера - то есть самой длинной последовательностью, относительно которой и определяется процент сходства. Representative sequence этого кластера, то есть последовательность, о которой известно больше всего, именно тот белок, который был мне выдан. К кластеру со схожестью 90% уже принадлежат белки других видов бактерий рода Nitrosomonas, а именно Nitrosomonas eutropha, что наводит на рассуждения о ближайшем родстве этого вида с Nitrosomonas europaea или же о том, что такое сходство конвергентно и они живут в очень схожих условиях. Для этого кластера representative и seed sequence те же, что и для предыдущего. Колебания длины аминокислотной последовательности стали чуть больше - самая короткая последовательность, принадлежащая штаммам вида Nitrosomonas eutropha, состоит из 267 аминокислотных остатков. Оба этих кластера названы по UniProtAC изучаемого белка, потому что именно он является репрезентативной последовательностью для обоих кластеров. Мне показалось интересным, что ни один из белков Nitrosomonas eutropha не входит в Swiss-Prot, то есть все они аннотированы только автоматически.

Кластер схожести 50% включает в себя белки представителей самых различных родов и видов класса Бетапротеобактерий, за его пределами белки этого кластера не встречаются. К этому кластеру относятся полипептидные цепи длиной от 39 (фрагменты) до 310 аминокислотных остатков. Representative sequence кластера принадлежит организму Kingella denitrificans ATCC 3339, почвенному денитрификатору. Среди белков этого кластера всего 35 входят в базу Swiss-Prot, которая аннотируется и анализируется вручную, все остальные прошли только автоматический компьютерный анализ. То, что в других классах схожих белков нет, говорит об их специфичности и, возможно, уникальности метаболического пути, в котором принимает участие данный фермент.

Сеансы поиска в UniProt

Для знакомства с синтаксисом запросов и возможностями поиска в UniProt было проведено несколько различных сеансов поиска по базе, некоторые из них были связаны с ГТФ-циклогидролазой, а некоторые нет. Для составления запросов я пользовалась кнопкой Advanced.

Поиск ГТФ-циклогидролаз

  • Поиск по рекомендованному названию белка

    Текст запроса: 'name:"gtp cyclohydrolase fole2"'
    Количество находок в Swiss-Prot: 173
    Общее количество находок: 5195
    В результатах поиска можно найти ГТФ-циклогидролазу, принадлежащую абсолютно разным организмам. Так, самый длинный найденный белок состоит из 1067 аминокислотных остатков и принадлежит Anthurium amnicola, растению семейства ароидные (это противоречит предположению в предыдущем задании об уникальности метаболического пути для отдельного семейства бактерий).

  • Поиск по рекомендованному названию белка среди белков данного организма

    Текст запроса: 'name:"GTP cyclohydrolase FolE2" taxonomy:"Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298)"'
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1
    Если проводить поиск среди белков данного вида без указания штамма (taxonomy: "Nitrosomonas europaea"), найдём ещё один белок, находящийся в автоматически анализируемой базе TrEMBL.

  • Поиск по рекомендованному названию белка среди белков этого семейства

    Текст запроса: 'name:"GTP cyclohydrolase FolE2" taxonomy:"Nitrosomonadaceae"'
    Количество находок в Swiss-Prot: 3
    Общее количество находок: 64
    В базе Swiss-Prot содержится информация только о трёх ГТФ-циклогидролазах этого семейства, принадлежащих организмам Nitrosomonas europaea, Nitrosospira multiformis (strain ATCC 25196 / NCIMB 11849 / C 71) и Nitrosomonas eutropha (strain DSM 101675 / C91), причем именно фермент последнего организма входит в кластер UniRef90 для исследуемого белка.

  • Поиск по рекомендованному названию белка среди белков этого отдела

    Текст запроса: 'name:"GTP cyclohydrolase FolE2" taxonomy:proteobacteria'
    Количество находок в Swiss-Prot: 131
    Общее количество находок: 4223

Поиск альбуминов

  • Поиск альбуминов без ограничения по организмам

    Текст запроса: name:albumin
    Количество находок в Swiss-Prot: 77
    Общее количество находок: 1043
    Больше всего последовательностей альбуминов установлено для Arabidopsis thaliana, человека, быка, мыши и крысы (неудивительно, ведь эти организмы представляют наибольший интерес, потому что являются модельными).

  • Поиск альбуминов у инфузорий (Ciliophora)

    Текст запроса: 'name:albumin taxonomy:"Ciliophora (9CILI) [5878]"'
    Количество находок в Swiss-Prot: 0
    Общее количество находок: 0
    Для инфузорий последовательности альбуминов неизвестны, потому что эти белки есть только у многоклеточных организмов.

  • Поиск альбуминов у Зелёных растений (Viridiplantae)

    Текст запроса: 'name:albumin taxonomy:viridiplantae'
    Количество находок в Swiss-Prot: 33
    Общее количество находок: 563

Поиск трипсинов

  • Поиск по слову "трипсин"

    Текст запроса: name: trypsin
    Количество находок в Swiss-Prot: 312
    Общее количество находок: 23018
    В результатах поиска можно найти сам трипсин и белки, схожие с ним, его ингибиторы и рецепторы, распознающие трипсины (оно называется trypsin receptor). Больше всего последовательностей трипсинов относится к человеку, мыши, крысе, Arabidopsis thaliana (растение, популярный модельный объект), бык.

  • Поиск трипсинов, исключая их ингибиторы

    Текст запроса: name:"trypsin" and NOT name:"inhibitor"
    Количество находок в Swiss-Prot: 101
    Общее количество находок: 18270
    Больше всего последовательностей трипсинов относится к человеку, мыши, крысе, дрозофиле и C.elegans (нематода, популярный модельный объект). Интересно отметить, что последовательностей трипсинов без ингибиторов больше, но в Swiss-Prot больше ингибиторов, даже если не учитывать, что ингибиторов самих по себе меньше и считать не долю, а количество вручную аннотированных последовательностей. Можно сделать вывод о том, что ингибиторы трипсина представляют больший интерес для учёных, чем сами трипсины, поэтому активнее исследуются.

В ходе выполнения этого задания я познакомилась с возможностями поиска по UniProt и теперь имею представление о том, какую информацию могу найти в нём и как использовать меню Advanced для получения именно той информации, которая мне нужна. Я узнала немного о формировании запросов для поиска по базе и о результатах этих запросов, их оформлении, дополнительных данных. Слева от таблицы с результатами поиска по записи расположена колонка Popular organisms, где перечислены несколько организмов, для которых установлено больше всего искомых последовательностей.

Различия в записях UniProt и RefSeqProtein

RefSeqProtein - другая база данных о белках, и сравнивая записи в двух разных базах можно понять, какую информацию в какой из них можно найти и какую для чего использовать. Я ввела в строку поиска по базе RefSeq RefSeq ID своего белка, который нашла в поле DR текстовой записи о белке в базе UniProt. Поиск во второй базе проводился по разделу Protein.

Можно заметить, что запись в UniProt сильно длиннее записи о том же белке в RefSeq Protein, а значит, в ней содержится больше информации о белке. Например, в ней упомянуты научные работы, в ходе которых была установлена структура и последовательность белка и вообще любые работы, посвящённые описываемой молекуле; в случае ГТФ-циклогидролазы FolE2 это работа по секвенированию генома бактерии и работа по установлению структуры белка методом рентгеноструктурного анализа. Вторичная структура описана очень подробно, для каждого её элемента указаны принимающие участие в его формировании аминокислоты, есть пометка о специализированных участках, которые предположительно выполняют важную роль (например, могут быть критичны для каталитической активности). Есть информация о том, доказано ли существование белка или оно предполагается по данным о кодирующем его гене, много ссылок на другие базы данных и порталы (поле DR), где тоже можно найти информацию о белке или о кодирующем его гене, причём указаны его идентификаторы на этих ресурсах для облегчения поиска; в частности, приведён RefSeq Protein ID, тогда как во второй базе никаких упоминаний других баз нет. В UniProt можно найти рекомендованное название и номер в системе классификации ЕС, указан конкретный штамм бактерии, из которого выделен белок. Здесь ест подробное описание функции белка, катализируемой им реакции, данные о том, к какой группе он принадлежит и когда был загружен в банк PDB. Сравнение последовательностей аминокислотных остатков белка в разных базах при помощи сервиса UniProt Align показало, что последовательности полностью совпадают.
Интересно, что в базу RefSeq Protein белок был добавлен 3 марта 2017 года, а в базу UniProt впервые еще 1 июня 2003. В RefSeq Protein есть строчка COMPLETENESS, которая показывает, для всего ли белка известна структура и аминокислотная последовательность (в первой базе эти данные нужно получать косвенно, сравнивая число аминокислот или другим способом). В ней так же указаны альтернативные продукты экспрессии гена, кодирующего данный белок, в моем случае это белок длиной в 266 аминокислотных остатков (вместо 268 в нормальной ГТФ-циклогидролазе), функция которого, предположительно, та же самая. Во второй базе всего одна запись для всех белков с одинаковой аминокислотной последовательностью, даже если они экспрессируются с генов из разных организмов, даже если эти организмы относятся к другому виду и вообще к другим систематическим категориям.

База UniProt более информативна, но некоторая информация в ней может быть избыточной. В ней есть почти всё то же самое, что и в RefSeq, кроме альтернативных продуктов экспрессии гена, ещё в ней об одном белке может быть несколько записей, а во второй базе только одна, даже для белков разных организмов.

Изучение истории изменений записи UniProt

Запись в базе данных постоянно изменяется, информация уточняется и дополняется, что-то удаляется вовсе, меняются названия, открываются новые функции, появляются новые статьи и многое другое. Всё это сохраняется в истории изменения записи, и при её изучении можно понять, как выглядела запись изначально или несколько корректировок назад. Список старых версий можно увидеть, кликнув по кнопке History на интерактивной странице белка.

Последнее изменение было внесено в запись 16 января 2019 года, а впервые запись об этом белке появилась в UniProt 6 января 2003 года, она была менее подробной, не содержала ссылок на альтернативные базы и идентификатора белка в них, ссылалась всего на одну посвящённую белку работу, в ходе которой был полностью отсеквенирован геном бактерии. Из TrEMBL в SwissProt запись была перенесена 2 января 2005, значит тогда же она была вручную проверена и аннотирована. Тогда же было изменено название белка: вместо UniProt ID использовалось Y1163_NITEU, которое обозначает принадлежность фермента к организму. В следующий раз название было заменено 5 мая 2009 года и с тех пор больше не менялось. GCH4_NITEU не только указывает на организм, но и называет белок и его функцию.

Изучение ключей таблицы локальных особенностей (feature table)

В разделе Help на сайте UniProt указано, какие поля какую информацию содержат, к тому же я использовала мануал https://web.expasy.org/docs/userman.html#FT_line Различные явления, которые можно наблюдать в белках, по-разному представлены в таблице локальных особенностей. Эти явления важны для понимания структуры и функции белков, возможностей их взаимодействия с другими молекулами.

Тег ZN_FING маркирует регион цинкового пальца - особого белкового мотива, стабилизированного ионами цинка, координационно связанными с аминокислотами. Цинковые пальцы взаимодействуют с ДНК, РНК, другими белками и молекулами. В следующих полях указаны первая и последняя аминокислоты, формирующие структуру, и её тип.
Тег NON_STD маркирует нестандартную аминокислоту в составе белка, селеноцистеин или пирролизин, название конкретного нестандартного остатка указывается в столбце после указания номера аминокислоты.
Тег MOD_RES указывает на посттрансляционную модификацию остатка аминокислоты. Химическая природа модификации описана в следующем столбце, это может быть ацетилирование, амидирование, формилирование, гидроксилирование, фосфорилирование и другие вариации. Так же указывается номер модифицированного остатка.
Тег CARBOHYD указывает на сайт гликозилирования, при этом указывается номер гликозилированной аминокислоты, атом, к которому прикрепляется гликан.
Тег DISULFID обозначает дисульфидный мостик, после него названы номера соединённых мостиком аминокислот, пометка interchain говорит о том, что мостик соединяет две различные полипептидные цепи.
Тег VARIANT маркирует вариативные участки последовательности, при этом указывается первая и последняя аминокислота этого участка, а так же альтернативные варианты последовательности (какие остатки какими заменены).
Тег VAR_SEQ указывает на изменения в последовательности аминокислот, произошедшие в результате альтернативного сплайсинга, использования другого промоутера, сдвига рамки считывания или инициации трансляции с другого места. После тега указываются первая и последняя аминокислота изменённого участка, а так же тип изменения, какие остатки какими заменены или удалены.