Знакомство с UniProt

В ходе практического задания мы учимся работать с банками последовательностей белков UniProt, узнаем о кластерах UniRef, выполняем поиск последовательностей, вводя различные запросы.

Получение информации о белке DYP_THEFY

В базе данных UniProt с помощью формы "Retrieve/ID mapping" после введения AC моего белка мне удолось получить запись о Краситель-обесцвечивающей пероксидазе Tfu_3078 из генома бактерии Thermobifida sp. fusca YX в формате UniProt. В таблице представлены данные, полученные в ходе изучения информации о данном белке.

Таблица 1. Основная информация о белке DYP_THEFY из UniProt.

UniProt ID DYP_THEFY
UniProt AC Q47KB1;
RefSeq ID WP_011293495.1
PDB ID 5FW4
Длина белка (а.о.) 430
Молекулярная масса (Да) 45928
Рекомендуемое название(полное) Dye-decolorizing peroxidase Tfu_3078
Рекомендуемое название(короткое) DyP

Краситель-обесцвечивающая пероксидаза Tfu_3078 способна преобразовывать большое количество соединений, но ее физиологический субстрат неизвестен. у данного белка была обнаружена высокая реакционная активность по отношению к антрахиновым красителям (например, к Активному голубому 2КТ) и умеренная активность по отношению к стандартным пероксидазным субстратам. Оптимальная pH среды в присутствии Активного голубого составляет 3.5 единицы, а благоприятная температура равна 298-ми Кельвинам.

Согласно данным из UniProt информация об исследумом белке была рассмотрены куратором и занесены в банк данных Swiss-Prot, что свидетельствует о ее надежности. Белок Tfu_3078 представлены двумя цепями (A/B).

Поиск белка DYP_THEFY в UniRef

Для того, чтобы определить идентификатор белка в базе данных UniRef, а также названия и размеры кластеров, в форму "Retrieve/ID mapping" был введен UniProt ID молекулы.

Таблица 2. Кластеры UniRef, содержащие белок DYP_THEFY.

Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_Q47KB1 Cluster: Dye-decolorizing peroxidase Tfu_3078 1
UniRef90 UniRef90_Q47KB1 Cluster: Dye-decolorizing peroxidase Tfu_3078 2
UniRef50 UniRef50_Q47KB1 Cluster: Dye-decolorizing peroxidase Tfu_3078 25

Нетрудно заметить, что кластеры ссылок UniProt (UniRef) состоят из трёх баз данных (UniRef100, UniRef90 и UniRef50), сформированных из кластеризованных наборов белковых последовательностей из UniProtKB. Дело в том, что одна и та же последовательность может попасть в базу данных несколько раз. В то время как кластеризация последовательностей значительно уменьшает размер базы данных. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надёжность поиска далёких родственных белков.[1]

Сеансы поиска в UniProt

Для знакомства с синтаксисом запросов в UniProt были проведены следующие сеансы поиска:

Поиск Краситель-обесцвечивающей пероксидазы Tfu_3078

Поиск актинов

Поиск трипсинов

По запросу "трипсин" поиск выдает в том числе ингибиторы трипсина. Поэтому был проведен дополнительный сеанс поиска, исключающий ингибиторы. В целом, результаты поиска показали, что банк Swiss-Prot, по сравнению с TrEMBL действительно содержит меньше информациию.

Источники:

[1] Google about UniProt