Практикум №5. Банк UniProt.

Анализ записи банка Uniprot о белке уридилат киназа (ID: PYRH_UREPA)

Для начала работы с последовательностью сперва ее надо найти в банке UniProt. Для этого:

  1. Открываем сайт самого банка UniProt.
  2. Используем форму "Retrieve/ID mapping".
  3. В первое окне вводим EMBL ID нашего белка (у меня это AAF30926.1).
  4. Выбираем из какого стороннего ресурса мы запрашиваем наш белок и где мы ищем совпадения (в нашем случае из "EMBL/GenBank/DDBJ CDS" в "UniProtKB").
  5. После нажатия кнопки "Submit" выдается таблица со списком сопоставленных белков.
  6. Переходим на страницу белка по его UniProt ID в столбце Entry.

Теперь мы видим отформатированную страничку, которую мы открываем в текстовом режиме (дописываем .txt в конец адреса страницы или Format->Text). Таким образом мы видим описание белка в формате UniProt. Теперь ищем необходимую информацию, которая будет отображена в Таблице 1.

  1. Рекомендуемое название в поле DE (RecName).
  2. Идентификаторы PDB и RefSeq в поле DR.
  3. Длину в аминокислотных остатках и молекулярную массу (MW) в дальтонах в поле SQ.
  4. И другая полезная информация, которая будет отражена в комментариях к таблице.
Таблица 1. Основная информация о белке PYRH_UREPA из UniProt.
UniProt ID PYRH_UREPA
UniProt AC Q9PPX6
Название белка Uridylate kinase
RefSeq ID WP_006688575.1
PDB ID 2VA1
Длина белка (а.о.) 235
Молекулярная масса (Да) 25924
Рекомендуемое название Uridylate kinase

Помимо перечисленного в таблице в записи белка можно найти:

  1. Альтернативное название белка: Uridine monophosphate kinase. А также сокращенные варианты его названий: UK, UMP kinase или UMPK (все в полях DE).
  2. Название организма - источника данного белка - и его таксономию: Ureaplasma parvum serovar 3 (strain ATCC 700970) Bacteria; Tenericutes; Mollicutes; Mycoplasmataceae; Ureaplasma (в полях OS и OC соответственно).
  3. Описание функции (catalyzes the reversible phosphorylation of UMP to UDP, with ATP as the most efficient phosphate donor and also able to phosphorylate dUMP), каталитической активности (reaction=ATP + UMP = ADP + UDP), регуляция активности (Unlike other bacteria, is not activated by GTP. UTP is a competitive inhibitor against UMP and a non- competitive inhibitor toward ATP.), биофизикохимические свойства (kinetic parameters, pH dependence), метаболические пути (Pyrimidine metabolism; CTP biosynthesis via de novo pathway; UDP from UMP (UMPK route)), клеточная локализация (cytoplasm), родство (belongs to the UMP kinase family) и субединицы (homohexamer; trimer of dimers)

Описание кластеров UniRef

Ход работы:

  1. Открываем сайт самого банка UniProt.
  2. Используем форму "Retrieve/ID mapping".
  3. В первое окне вводим EMBL ID нашего белка (у меня это AAF30926.1).
  4. Выбираем из какого стороннего ресурса мы запрашиваем наш белок и где мы ищем совпадения (в нашем случае из "EMBL/GenBank/DDBJ CDS" в "UniProtKB").
  5. После нажатия кнопки "Submit" выдается таблица со списком сопоставленных белков.
  6. Переходим на страницу белка по его UniProt ID в столбце Entry.
  7. Матаем открывшеюся страничку вниз до таблицы "Similar proteins", в которой указан ID кластера (крайняя правая колонка) и указаны записи белков, входящие в этот кластер. При необходимости поподробнее изучить каждый кластер можно просто перейти по его ID. Там указана более подробная информация по каждой записи и есть название кластера.
Таблица 2. Кластеры UniRef, содержащие белок PYRH_UREPA.
UniRef100 UniRef90 UniRef50
ID кластера UniRef100_Q9PPX6 UniRef90_Q9PPX6 UniRef50_Q9PPX6
Название кластера Uridylate kinase (100%) Uridylate kinase (90%) Uridylate kinase (50%)
Размер кластера 4 6 16

Перечисленные кластеры содержат в себе одну аннотированную и проверенную запись (из Swiss-Prot) белка с UniProt ID: PYRH_UREPA. Помимо этого UniRef90 и UniRef100 содержат одну запись, которая относится к UniParc и при этом обозначена, как базовая или начальная (seed), а в UniRef50 таких записей 2. Остальные записи в кластерах относятся к непроверенным (из TrEmbl). Так же можно отметить, что последовательности с большей сходимостью входят в кластеры, содержащие записи белков меньшей сходимости (что в принципе очевидно). На отформатированной страничке с записью в формате UniProt отмечены кластеры схожести, однако в них не входит сам белок, поэтому в них указывалось количество записей -1.

Проведение нескольких сеансов поиска

Поиск гомеобоксов (homeobox)

Поиск трипсинов

Различия в записях UniProt и RefSeq Protein

Рассмотрим две различные записи одного и того же белка PYRH_UREPA (UniProt ID) и WP_006688575.1 (RefSeq ID). На самом деле, различия огромны и разительны. Запись UniProt содержит на много больше информации о белке, которой нет в записи RefSeq. Ниже приведены некоторые отличия.

Историю изменений записи UniProt

В качестве примера был взят белок трипсин (UniProt ID: TRY1_HUMAN). Просмотрев его историю можно отметить, что примерно с периода 1991-08-01 по 1992-03-01 в названи белков вместо знака $ стали использовать _. Еще у этого белка 11 раз дополнялись accession number (всего их 12). Также помянялся вид номера релиза (старый: 15.11/57.11; новый: 2019_02).

Ключи таблицы локальных особенностей (Feature Table)

Во вкладке Help UniProt были найдены виды представления в записи следующих явлений: