Работа в UniProt


В этой работе продолжается изучение белка, рассмотренного в первом практикуме.

Получение первичной информации о белке

Для поиска мы использовали PDB-id 6IFP из первого практикума. Для того чтобы найти его в UniProt, была использована форма "Retrieve/ID mapping" (from PDB to UniProtKB). В результате была найдена одна запись об искомом белке, некоторые данные из которой представлены в таблице 1.

Таблица 1. Основная информация о белке Pseudoazurin из UniProt

Раздел UniProtKB Swiss-Prot
UniProt ID AZUP_ACHCY
UniProt AC P19567; Q43929
EMBL AC (ENA/GenBank/DDBJ) Z48669; CAA88588.1; -; Genomic_DNA
PDB ID 1BQK; 1BQR; 1ZIA; 1ZIB; 2JKW; 2UX6; 2UX7; 2UXF; 2UXG; 4YL4; 5WV4; 5XMO; 5Y23; 5YSG; 5YW3; 5Z0X; 5ZTD; 6AKN; 6IFP
Длина, а.о. 152
Молекулярная масса, Да 15760
Рекомендуемое название Pseudoazurin
Альтернативное название Blue copper protein (Синий медный белок)

По умолчанию UniProt показывает страницу белка с цветным дизайном, автоматически созданную на основе записи. В таком виде информацию легко воспринимать, но может быть сложно найти нужные данные, поэтому удобнее оказалось рассматривать страницу в текстовом виде записи. Также была изучена соответствующая страница RSCB PDB. В записях PDB белок имеет две цепи по 124 остатка, однако, в UniProt говорится, что цепь одна и состоит их 152 остатков. Файл "Bioassembly 1" содержит 2 модели — в белке 2 субъединицы.

Поиск связанных кластеров UniRef

Зная идентификатор белка, воспользуемся формой "Retrieve/ID mapping" (from UniProtKB AC/ID to UniRef100). Далее изучили записи UniRef90 и UniRef50 соответственно. Данные о записях UniRef представлены в таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок AZUP_ACHCY

Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_P19567 Cluster: Pseudoazurin 4
UniRef90 UniRef90_P19567 Cluster: Pseudoazurin 39
UniRef50 UniRef50_P19567 Cluster: Pseudoazurin 573

Интересно, что даже в UniRef100 в кластере оказалось 4 белка: еще один из Achromobacter и два из бактерии Sinorhizobium.

Сеансы поиска в UniProt

Чтобы изучить возможности поиска в базах UniProt, были проведены различные сеансы — как связанные с белком AZUP_ACHCY, так и нет. При составлении запросов было использовано меню "Advanced". Более подробно результаты проведённых сеансов изложены ниже.

Поиск псевдоазурина

  • Поиск с уточненным видовым названием

    Текст запроса: name:pseudoazurin organism:"achromobacter cycloclastes"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  • Поиск по тому же названию среди белков организмов того же семейства

    Текст запроса: name:pseudoazurin taxonomy:alcaligenaceae
    Количество находок в Swiss-Prot: 2
    Общее количество находок: 3

  • Поиск по тому же названию среди белков из организмов того же отдела

    Текст запроса: name:pseudoazurin taxonomy:proteobacteria
    Количество находок в Swiss-Prot: 6
    Общее количество находок: 2 382

Поиск HOX-генов

  • Ищем все белки со словом «гомеобокс» в названии

    Текст запроса: name:homeobox
    Количество находок в Swiss-Prot: 1 398
    Общее количество находок: 100 882

  • Поиск HOX-генов у зелёных растений

    Текст запроса: name:homeobox taxonomy:viridiplantae
    Количество находок в Swiss-Prot: 224
    Общее количество находок: 18 438

  • Поиск у членистоногих

    Текст запроса: name:homeobox taxonomy:arthropoda
    Количество находок в Swiss-Prot: 57
    Общее количество находок: 9 154

Поиск трипсинов

  • Поиск по слову «трипсин»

    Текст запроса: name:trypsin
    Количество находок в Swiss-Prot: 320
    Общее количество находок: 29 530

  • Поиск трипсинов, исключая их ингибиторы

    Текст запроса: name:trypsin NOT name:inhibitor
    Количество находок в Swiss-Prot: 104
    Общее количество находок: 24 569

История записи

Ради интереса было проведено сравнение записи в UniProt актуальной версии 118 (от 11.12.2019) и версии 13 (от 11.01.2001). Во-первых, изменилась таксономия бактерии - с семейства Burkholderiales на семейство Alcaligenaceae. Во-вторых, тогда имелось всего два файла PDB для этого белка (1ZIA и 1ZIB), что, на самом деле неплохо для 2001 года. В-третьих, сейчас стали по-другому оформлять Feature Table, в котором сейчас пишут больше информации о структуре белка. Но по факту, функция и строение белка были известны аж 20 лет назад.

Интересное в Feature Table

С помощью Help, было изучено, как в записи обозначаются необычные свойства белка. Например:
- нестандартные аминокислоты (селеноцистеин и пирролизин) - NON_STD
- посттрансляционные модификации (фосфорилирование, гликозилирование,...) - MOD_RES
- альтернативный сплайсинг - VAR_SEQ
- дисульфидные связи - DISULFID