Практикум 3. Знакомство с Uniprot

В практикуме 3 требовалось ознакомиться с устройством базы данных Uniprot, найти в ней информацию о выданном в 1 семестре белке и научиться проводить сеансы поиска белков.

Получение информации о белке PMEA_DICD3

protein

Поиск проводился в форме "Retrieve/ID mapping" по номеру белка (ADM99554.1). Перейдя по ссылке в столбце Entry и изменив формат страницы на .txt, мы получили текстовый файл, из которого взяли некоторую важную информацию. Полученная информация представлена в таблице 1.

Таблица 1. Основная информация о белке PMEA_DICD3 из UniProt.
UniProt ID PMEA_DICD3
UniProt AC P0C1A9; E0SAZ5; P07863
Название белка Pectinesterase A (PE A)
RefSeq ID WP_013318985.1
PDB ID 2NSP; 2NST; 2NT6; 2NT9; 2NTB; 2NTP; 2NTQ
Длина белка (а.о.) 366AA
Молекулярная масса (Да) 39373 MW
Рекомендуемое название Full=Pectinesterase A; Short=PE A; EC=3.1.1.11

Белок пектинэстераза состоит из двух субъединиц, и каждая состоит из 366 аминокислотных остатков. Тем не менее, в текстовом варианте страницы UniProt о белке было указано, что первые 24 аминокислотные остатка относятся не цепи (CHAIN), а к сигнальному отрезку (SIGNAL {ECO:0000250}), и они не отображаются в PDB-файлах.

Для белка известно 7 определенных рентгеноструктурным анализом структур разного разрешения.

Поиск белка PMEA_DICD3 в UniRef

Для поиска белковых кластера в строке поиска была выбрана база данных UniRef. Поиск проводился по AC. После отображения таблицы с тремя белковыми кластерами (UniRef90_P0C1A9, UniRef50_P0C1A9, UniRef100_P0C1A9) был просмотрен каждый кластер. Найденная таким образам информация представлена в таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок PMEA_DICD3.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_P0C1A9 Cluster: Pectinesterase A 2
UniRef90 UniRef90_P0C1A9 Cluster: Pectinesterase A 28
UniRef50 UniRef50_P0C1A9 Cluster: Pectinesterase A 204

Кластер UniRef100_P0C1A9 содержит всего две последовательности, которые фактически описывают один и тот же белок возможно разных штаммов одного вида бактерий Erwinia chrisanthemi. Кластер UniRef90_P0C1A9 содержит 28 последовательностей, отвечающих нескольким видам одного рода Erwinia. Из этого следует, что белок пектинэстераза A весьма специфичен для этого рода и отвечает конкретным потребностям в приспособлении к паразитизму на высших растениях.

Кластер UniRef50_P0C1A9 составляют, кроме белков бактерий рода Erwinia, еще и белки других патогенных бактерий, вызывающих заболевания в том числе и человека, например, Enterobacter cloacae или Serratia sp.. Не совсем понятно, зачем понадобилась пектинэстераза возбудителю инфекций дыхательных и мочевыводящих путей. Можно предположить, что в автоматически составленной TrEMBL записи допущена ошибка, и белок у Serratia sp. на самом деле выполняет гидролиз не пектина, а другого вещества с сложноэфирной связью (класс 3.1.1 по классификации EC).

Сеансы поиска в UniProt

По заданию требовалось научиться проводить сеансы поиска в UniProt. Для поиска использовался определенный синтаксис: логические операции соединяют выбранные значения определенного типа. Так как в синтаксисе отсутствует понятие "скобок", то в одном из сеансов возникли трудности с поиском белков, удовлетворяющим сложному условию (гистон & (Членистоногие / Инфузории)). Существование определенного синтаксиса, с одной стороны, облегчает поиск, но, с другой стороны, вызывает проблемы с формулировкой условия.

Поиск белка пектинэстеразы A

  1. Поиск по краткому имени

    Текст запроса: [name:"pe a"]
    Количество находок в Swiss-Prot: 2
    Общее количество находок: 53

  2. Поиск по краткому имени и названию организма

    Текст запроса: [name:"pe a" AND organism:"Dickeya dadantii (strain 3937) (Erwinia chrysanthemi (strain 3937)) [198628]"]
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  3. Поиск по краткому имени и названию семейства

    Текст запроса: [name:"pe a" AND xxx]
    Количество находок в Swiss-Prot: 2
    Общее количество находок: 2

  4. Поиск по краткому имени и названию отдела

    Текст запроса: [name:"pe a" taxonomy:"Proteobacteria [1224]"]
    Количество находок в Swiss-Prot: 2
    Общее количество находок: 2

Результаты сеансов показывают, что максимально аккуратным надо быть с поиском по краткому имени, так как могут выдаваться в качестве результата совершенно не отвечающие нашим предпочтениям белки совершенно посторонних организмов (например, никоим образом нас не волнующий организм под названием HUMAN). Поэтому рекомендуется пользоваться полным названием белка. Наиболее информативен поиск по названию белка и таксономическим группам.

Поиск гистонов

  1. Поиск гистонов членистоногих

    Текст запроса: [name:histone taxonomy:arthropoda]
    Количество находок в Swiss-Prot: 139
    Общее количество находок: 32273

  2. Поиск гистонов инфузорий

    Текст запроса: [name:histone taxonomy:ciliophora]
    Количество находок в Swiss-Prot: 61
    Общее количество находок: 491

Из результатов двух запросов можно сделать заключение, что общее число описанных хотя бы компьютером гистонов артропод и цилиофор составляет 32764, из них проверенных кураторами SwissProt - 200. Это возможно потому, что никакие мечехвосты не являются сувойками и никакие парамеции не являются пауками, обратное было бы странно и несомненно привлекло бы научное сообщество.

Поиск трипсинов

  1. Поиск по слову "трипсин"

    Текст запроса: [name:trypsin]
    Количество находок в Swiss-Prot: 312
    Общее количество находок: 22706

  2. Поиск трипсинов, исключая их ингибиторы

    Текст запроса: [name:trypsin NOT name:inhibitor]
    Количество находок в Swiss-Prot: 101
    Общее количество находок: 18270

Результаты запросов показывают, что иногда требуется уточнять условия поиска по названию, так как названия белков бывают очень сложны и длинны. Поиск по слову "трипсин" выдал наряду с непосредственно трипсиноподобными белками сравнимое количество ингибиторов трипсина, например, известный ингибитор трипсина у Arabidopsis, играющий весомую роль в механизме защиты высших растений.

P0C1A9.txtКластерыНАЗАД