Поиск белка OL4AG_CELJU и других белков в UniProt

Знакомство с UniProt

В данном практикуме я искал информацию о различных белках в базах данных UniProtKB и UniRef. Для этого необходимо было ознакомиться с форматом UniProt и параметрами поиска на сайте UniProt.

Получение информации о белке OL4AG_CELJU

В UniProtKB по Genbank AC (accession number) был найден белок. Вся информация была взята из записи о белке в формате UniProt.
Полученная информация представлена в таблице 1.

Таблица 1. Основная информация о белке OL4AG_CELJU из UniProt.
UniProt ID OL4AG_CELJU
UniProt AC B3PEE6
Рекомендуемое название Oligosaccharide 4-alpha-D-glucosyltransferase
Альтернативное название Alpha-glucosidase 31B
RefSeq ID WP_012488824.1
PDB ID 4B9Y, 4B9Z, 4BA0, 5I23, 5I24, 5NPB, 5NPC, 5NPD, 5NPE
Длина белка (а.о.) 816
Молекулярная масса (Да) 92279

Данный белок состоит из одной цепи. Самое высокое разрешение рентгеноструктурного анализа: 2.00 Å. Вторичная структура: как альфа-спирали, так и бета-тяжи. В Uniprot дано очень подробное описание белка, в том числе его функций и каталитической активности для четырех разных субстратов.

Поиск белка OL4AG_CELJU в UniRef

Белок был найден в базе UniRef по своему UniProt ID.
Полученная информация представлена в таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок OL4AG_CELJU.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_B3PEE6 (100%) Oligosaccharide 4-alpha-D-glucosyltransferase 2
UniRef90 UniRef90_B3PEE6 (90%) Oligosaccharide 4-alpha-D-glucosyltransferase 4
UniRef50 UniRef50_B3PEE6 (50%) Oligosaccharide 4-alpha-D-glucosyltransferase 131

Данный фермент, по данным UniRef, идентичен на 90% только трем другим белкам; все они из одного и того же организма: Cellvibrio japonicus. На 50% идентичные белки имеют только другие представители класса Gammaproteobacteria. То есть можно сказать, что белки данного типа не являются очень уж широко распространенными. Также стоит упомянуть, что из 131 записи, приндалежащей кластеру UniRef50_B3PEE6 (50%), исследуемая запись единственная находится в курируемой базе данных Swiss-Prot.
Фермент олигосахарид-4-альфа-D-глюкозилтрансфераза переносит невосстанавливающий концевой остаток альфа-D-глюкозы от альфа-1,4-D-глюкана (к ним относятся, например, гликоген и амилоза) на C4-атом свободной глюкозы или остатка глюкозила на невосстанавливающем конце альфа-1,4-D-глюкана. Это обеспечивает реорганизацию олигосахаридов в клетке. Бактерии Cellvibrio japonicus могут разлагать клеточную стенку растений, состоящую из сложной сети соединенных друг с другом полисахаридов. Таким образом, сравнительно высокая уникальность последовательности фермента может объясняться специфической ролью, которую он играет в разложении клеточной стенки.

Сеансы поиска в UniProt

Для знакомства с синтаксисом запросов в UniProt были проведены следующие сеансы поиска:

Поиск олигосахарид-4-альфа-D-глюкозилтрансферазы

  • Поиск по рекомендованному названию белка: Oligosaccharide 4-alpha-D-glucosyltransferase

    Текст запроса: "name:"oligosaccharide 4 alpha d glucosyltransferase""
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 145

  • Поиск по рекомендованному названию среди белков Cellvibrio japonicus

    Текст запроса: "name:"oligosaccharide 4 alpha d glucosyltransferase" organism:"cellvibrio japonicus""
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  • Поиск по рекомендованному названию среди белков из организмов семейства Cellvibrionaceae

    Текст запроса: "name:"oligosaccharide 4 alpha d glucosyltransferase" taxonomy:"Cellvibrionaceae [1706371]""
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 2

  • Поиск по рекомендованному названию среди белков из организмов отдела Proteobacteria

    Текст запроса: "name:"oligosaccharide 4 alpha d glucosyltransferase" taxonomy:"Proteobacteria [1224]""
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 30

Поиск белков с гомеодоменом (homeobox)

  • Поиск без ограничения на организмы

    Текст запроса: "name:homeobox"
    Количество находок в Swiss-Prot: 1396
    Общее количество находок: 56731

  • Поиск по членистоногим (Arthropoda)

    Текст запроса: "name:homeobox taxonomy:"Arthropoda [6656]""
    Количество находок в Swiss-Prot: 57
    Общее количество находок: 4894

  • Поиск по инфузориям (Ciliophora)

    Текст запроса: "name:homeobox taxonomy:"Ciliophora [5878]""
    Количество находок в Swiss-Prot: 0
    Общее количество находок: 2

Поиск трипсинов

  • Поиск по слову "трипсин" ("trypsin@)

    Текст запроса: "name:trypsin"
    Количество находок в Swiss-Prot: 312
    Общее количество находок: 22706

  • Поиск трипсинов, исключая их ингибиторы

    Текст запроса: "name:trypsin NOT name:inhibitor"
    Количество находок в Swiss-Prot: 101
    Общее количество находок: 18169

Подтвердилось, что исследуемый белок достаточно редкий и, по-видимому, специфичен для бактерий, разлагающих клеточную стенку растений.
Любопытно, что вообще что-то нашлось по поиску белков с гомеодоменом у Ciliophora. У бурых водорослей, кстати, не нашлось)
Записей по трипсину сильно больше, чем по его ингибиторам, а вот процент записей в Swiss-Prot у ингибиторов выше. Оно и понятно, что последовательностей трипсинов больше, чем последовательностей ингибиторов, а больший научный интерес представляют ингибиторы.

Сравнение записей UniProt и RefSeq Protein

Была найдена запись RefSeq, на которую есть ссылка в записи Uniprot, а именно WP_012488824.1.

Формат записи RefSeq содержит гораздо меньше информации, чем формат UniProt. Если в UniProt даны ссылки на структуры белка, может быть описание функций, биофизикохимических свойств, модифицированных остатков, а также подробная информация о штамме бактерии, из которой белок был получен, то в RefSeq есть только основная информация: число аминокислот, организм, описание доменов белка, а также не очень подробные комментарии.

История изменений записи UniProt

Запись была создана в 2008 году. С тех пор в записи было сделано 63 изменения. Последнее изменение было сделано 16 января 2019 года, были обновлены ссылки на другие базы. Любопытно, что запись поместили в Swiss-Prot в 2015 (верся 43), а до этого запись была в TrEMBL под другим UniProt ID.

Удобно, что UniProt позволяет сравнить две любые версии между собой.

Ключи таблицы локальных особенностей (Feature Table)

Информация о локальных особенностях была получена из раздела "Sequence annotation (Features)" на сайте UniProt. Примеры взяты из различных записей UniProt.

Примеры строк Feature table:
1. Нестадартные аминокислотные остатки (из записи P24183):

FT   NON_STD      49     49       Selenocysteine.
					

2. Модифицированные остатки (запись P16157). В данном случае указан фермент, осуществляющий модификацию, а так же то, что только часть белков имеют эту модификацию ("partial"). Кроме того, дан Evidence & Conclusion Ontology code (он показывает, на каких основаниях что-либо утверждается) со ссылкой на публикацию:

FT   MOD_RES     464    464       (3S)-3-hydroxyasparagine; by HIF1AN;
FT                                partial. {ECO:0000269|PubMed:21177872}.
					

3. Альтернативный сплайсинг (P04150). Даны ECO со ссылкой на публикацию и ID изоформы без этого участка:

FT   VAR_SEQ       1    335       Missing (in isoform Alpha-D3).
FT                                {ECO:0000269|PubMed:15866175}.
FT                                /FTId=VSP_058312.
					

4. Дисульфидные мостики (P19880). Дано описание свойств данной связи, ECO и ссылка на публикацию:

FT   DISULFID    620    629       In diamide-induced nuclear retained form.
FT                                {ECO:0000269|PubMed:11509657}.
					

5. Внеклеточный топологический домен трансмембранного белка (Q86V24):

FT   TOPO_DOM    295    309       Extracellular.
FT                                {ECO:0000269|PubMed:25855295}.
					

Feature table предоставляет множество полезной информации о белке. Формат записи достаточно наглядный и удобен в использовании.