UniProt. Endoglucanase E1.

Этот практикум посвящен обучению использования базы данных UniProt для быстрого и удобного получения необходимой информации.

Получение информации о белке GUN1_ACIC1

При помощи GenBank AC выданного мне белка, я нашла файл в UniProt, сожержащий основную информацию о нем. Некоторые найденные мной данные приведены в таблице 1.

Таблица 1. Основная информация о белке GUN1_ACIC1 из UniProt.
UniProt ID GUN1_ACIC1
UniProt AC P54583
RefSeq ID WP_011719450.1
PDB ID 1ECE; 1VRX
Длина белка (а.о.) 562
Молекулярная масса (Да) 60748
Рекомендуемое название Endoglucanase E1

В UniProt информция о белках представлена в очень удобном виде. Если знать струртуру одного файла в базе UniProt, во всех остальных файлах очень просто найти все необходимое. Мне понравилось искать информацию для таблицы в этой базе данных.

Поиск белка GUN1_ACIC1 в UniRef

Все белки имеют свои три кластера. С помощью UniProt ID белка я нашла среди UniRef информацию о кластерах для данного белка. Сведения о принадлежности белка к кластерам предлставлены в таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок GUN1_ACIC1.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_P54583 Cluster: Endoglucanase E1 2
UniRef90 UniRef90_P54583 Cluster: Endoglucanase E1 2
UniRef50 UniRef50_P54583 Cluster: Endoglucanase E1 63

Кластеры ссылок UniProt (UniRef) состоят из трёх баз данных: UniRef100, UniRef90 и UniRef50. База данных UniRef100 сочетает идентичные последовательности и фрагменты последовательности в одной записи UniRef. Каждый из двух последних кластеров состоит из последовательностей, которые имеют не менее 90 % и не менее 50 % идентичности, соответственно, с самой длинной найденной последовательностью. Кластеризация последовательностей значительно уменьшает размер базы данных: UniRef100, UniRef90 и UniRef50 дают уменьшение размера базы данных примерно на ~ 10, 40 и 70 %, соответственно. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надёжность поиска далёких родственных белков.

Сеансы поиска в UniProt

Для лучшего понимания работы с базой данных UniProt были проведны некоторые сеансы поиска. С помощью кнопки "Advanced" и возможности комбинировать слова в запросе была получена информация, которая представлена ниже.

Поиск Эндоглюконазы Е1.
  • Поиск Эндоглюконазы Е1 по рекомендованному названию.

    Текст запроса: name:"endoglucanase e1"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 117

  • Поиск Эндоглюконазы Е1 в организме.

    Текст запроса: name:"endoglucanase e1" organism:"acidothermus cellulolyticus strain atcc 43068 11b"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  • Поиск Эндоглюконазы Е1 в семействе Acidothermaceae.

    Текст запроса: name:"endoglucanase e1" taxonomy:"acidothermaceae"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  • Поиск Эндоглюконазы Е1 в отделе Actinobacteria.

    Текст запроса: name:"endoglucanase e1" taxonomy:"actinobacteria"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 20

Поиск цитохромов.
  • Поиск цитохромов без ограничеия на организмы.

    Текст запроса: name:"cytochrome"
    Количество находок в Swiss-Prot: 7713
    Общее количество находок: 2570961

  • Поиск цитохромов в грибах.

    Текст запроса: name:"cytochrome" taxonomy:"fungi"
    Количество находок в Swiss-Prot: 695
    Общее количество находок: 57890

  • Поиск цитохромов в инфузориях.

    Текст запроса: name:"cytochrome" taxonomy:"ciliophora"
    Количество находок в Swiss-Prot: 6
    Общее количество находок: 1912

Поиск трипсинов.
  • Поиск по слову "трипсин".

    Текст запроса: name:"trypsin"
    Количество находок в Swiss-Prot: 312
    Общее количество находок: 22706

  • Поиск трипсинов, исключая их ингибиторы.

    Текст запроса: name:"trypsin" NOT name:"inhibitor"
    Количество находок в Swiss-Prot: 101
    Общее количество находок: 18169

Поиск очень удобный и быстрый, особенно для получения статистичеких данных.