Знакомство с UniProt

Необходимо найти информацию о белке в UniProt. Далее - описать кластеры UniRef своего белка и провести несколько сеансов поиска в UniProt.

Получение информации о белке FLAK_METM6

В UniProt был найден белок Preflagellin peptidase (UniProt ID: FLAK_METM6). Была найдена информация об идентификаторе в UniProt, PDB, RefSeq, были найдены UniProt AC, а также длина белка в аминокислотных остатках и молекулярная масса в дальтонах. Данная информация представлена в Таблице 1. Данные для таблицы были взяты отсюда


Таблица 1. Основная информация о белке FLAK_METM6 из UniProt.
UniProt ID FLAK_METM6
UniProt AC A9A677
RefSeq ID WP_012193134.1
PDB ID 3S0X
Длина белка (а.о.) 230
Молекулярная масса (Да) 26021
Рекомендуемое название Full = Preflagellin peptidase; Short = PFP

Данный белок представлен в организме археи Methanococcus maripaludis С6, находится в клеточной мембране. Информация о структуре белка получена методом рентгеноструктурного анализа. Функция белка заключается в отделении N-концевого лидирующего пептида от префлагеллинов. Префлагеллин пептидаза - α/β белок, состоит из единственной цепи, принадлежит семейству пептидаз А24.

Поиск белка FLAK_METM6 в UniRef

Найдены данные о кластерах белка FLAK_METM6 в UniRef50, UniRef90, UniRef100: их идентификаторы, названия и длина.

Таблица 2. Кластеры UniRef, содержащие белок FLAK_METM6.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_A9A677 Preflagellin peptidase 2
UniRef90 UniRef90_A9A677 Preflagellin peptidase 9
UniRef50 UniRef50_A9A677 Preflagellin peptidase 20

Подробнее о кластерах можно посмотреть здесь

Базе данных белков свойственна некоторая избыточность данных: можно обнаружить идентичные последовательности. Для этого такие последовательности объединяют в кластеры. В UniRef было удобно искать информацию о кластерах: можно было узнать идентификатор кластера, его название, размер, название организмов, в которых присутствуют идентичные белки и идентификаторы их таксонов. Кластер UniRef50 объединяет в себе 20 белков, UniRef90 - 9 белков, а UniRef100 - всего лишь 2 белка.

Сеансы поиска в UniProt

Для знакомства с синтаксисом запросов в UniProt были проведены следующие сеансы:

  • поиск по рекомендованному названию белка
  • поиск по тому же названию среди белков организма
  • поиск по тому же названию среди белков из организмов того же семейства
  • поиск по тому же названию среди белков организмов того же отдела
  • поиск по названию без ограничений на таксоны
  • поиск по названию с ограничениями на таксоны
  • поиск по названию "трипсин", в том числе, исключая ингибиторы

Поиск префлагеллин пептидазы

  • Поиск по рекомендованному названию белка

    Текст запроса: name:"preflagellin peptidase"
    Количество находок в Swiss-Prot: 5
    Общее количество находок: 167

  • Поиск по рекомендованному названию среди белков Methanococcus meripaludis C6

    Текст запроса: name:"preflagellin peptidase" AND organism:"methanococcus maripaludis (strain C6 / ATCC BAA-1332)"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  • Поиск по рекомендованному названию среди белков представителей семейства Methanococcaceae

    Текст запроса: name:"preflagellin peptidase" AND taxonomy:"methanococcaceae"
    Количество находок в Swiss-Prot: 3
    Общее количество находок: 7

  • Поиск по рекомендованному названию среди белков представителей отдела euryarchaeota

    Текст запроса: name:"preflagellin peptidase" AND taxonomy:"euryarchaeota"
    Количество находок в Swiss-Prot: 5
    Общее количество находок: 101

Поиск аллергенов

  • Поиск аллергенов без ограничений на таксоны

    Текст запроса: name:"allergen"
    Количество находок в Swiss-Prot: 483
    Общее количество находок: 11242

  • Поиск аллергенов среди животных

    Текст запроса: name:"allergen" AND taxonomy:"metazoa"
    Количество находок в Swiss-Prot: 129
    Общее количество находок: 1921

  • Поиск аллергенов среди зеленых растений

    Текст запроса: name:"allergen" AND taxonomy:"viridiplantae"
    Количество находок в Swiss-Prot: 309
    Общее количество находок: 2148

Поиск трипсинов

  • Поиск по названию "трипсин"

    Текст запроса: name:"trypsin"
    Количество находок в Swiss-Prot: 312
    Общее количество находок: 23018

  • Поиск по названию "трипсин", исключая ингибиторы

    Текст запроса: name:"trypsin" NOT name:"inhibitor"
    Количество находок в Swiss-Prot: 101
    Общее количество находок: 18270

Результаты поиска показали, что база данных белков Swiss-Prot намного меньше TrEMBL.

up