В этой работе продолжается изучение белка, рассмотренного в первом практикуме.
Для поиска мы использовали PDB-id 6IFP из первого практикума. Для того чтобы найти его в UniProt, была использована форма "Retrieve/ID mapping" (from PDB to UniProtKB). В результате была найдена одна запись об искомом белке, некоторые данные из которой представлены в таблице 1.
Таблица 1. Основная информация о белке Pseudoazurin из UniProt
Раздел UniProtKB | Swiss-Prot |
UniProt ID | AZUP_ACHCY |
UniProt AC | P19567; Q43929 |
EMBL AC (ENA/GenBank/DDBJ) | Z48669; CAA88588.1; -; Genomic_DNA |
PDB ID | 1BQK; 1BQR; 1ZIA; 1ZIB; 2JKW; 2UX6; 2UX7; 2UXF; 2UXG; 4YL4; 5WV4; 5XMO; 5Y23; 5YSG; 5YW3; 5Z0X; 5ZTD; 6AKN; 6IFP |
Длина, а.о. | 152 |
Молекулярная масса, Да | 15760 |
Рекомендуемое название | Pseudoazurin |
Альтернативное название | Blue copper protein (Синий медный белок) |
По умолчанию UniProt показывает страницу белка с цветным дизайном, автоматически созданную на основе записи. В таком виде информацию легко воспринимать, но может быть сложно найти нужные данные, поэтому удобнее оказалось рассматривать страницу в текстовом виде записи. Также была изучена соответствующая страница RSCB PDB. В записях PDB белок имеет две цепи по 124 остатка, однако, в UniProt говорится, что цепь одна и состоит их 152 остатков. Файл "Bioassembly 1" содержит 2 модели — в белке 2 субъединицы.
Зная идентификатор белка, воспользуемся формой "Retrieve/ID mapping" (from UniProtKB AC/ID to UniRef100). Далее изучили записи UniRef90 и UniRef50 соответственно. Данные о записях UniRef представлены в таблице 2.
Таблица 2. Кластеры UniRef, содержащие белок AZUP_ACHCY
Раздел UniRef | ID кластера | Название кластера | Размер кластера |
UniRef100 | UniRef100_P19567 | Cluster: Pseudoazurin | 4 |
UniRef90 | UniRef90_P19567 | Cluster: Pseudoazurin | 39 |
UniRef50 | UniRef50_P19567 | Cluster: Pseudoazurin | 573 |
Интересно, что даже в UniRef100 в кластере оказалось 4 белка: еще один из Achromobacter и два из бактерии Sinorhizobium.
Чтобы изучить возможности поиска в базах UniProt, были проведены различные сеансы — как связанные с белком AZUP_ACHCY, так и нет. При составлении запросов было использовано меню "Advanced". Более подробно результаты проведённых сеансов изложены ниже.
Текст запроса: name:pseudoazurin organism:"achromobacter cycloclastes"
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
Текст запроса: name:pseudoazurin taxonomy:alcaligenaceae
Количество находок в Swiss-Prot: 2
Общее количество находок: 3
Текст запроса: name:pseudoazurin taxonomy:proteobacteria
Количество находок в Swiss-Prot: 6
Общее количество находок: 2 382
Текст запроса: name:homeobox
Количество находок в Swiss-Prot: 1 398
Общее количество находок: 100 882
Текст запроса: name:homeobox taxonomy:viridiplantae
Количество находок в Swiss-Prot: 224
Общее количество находок: 18 438
Текст запроса: name:homeobox taxonomy:arthropoda
Количество находок в Swiss-Prot: 57
Общее количество находок: 9 154
Текст запроса: name:trypsin
Количество находок в Swiss-Prot: 320
Общее количество находок: 29 530
Текст запроса: name:trypsin NOT name:inhibitor
Количество находок в Swiss-Prot: 104
Общее количество находок: 24 569
Ради интереса было проведено сравнение записи в UniProt актуальной версии 118 (от 11.12.2019) и версии 13 (от 11.01.2001). Во-первых, изменилась таксономия бактерии - с семейства Burkholderiales на семейство Alcaligenaceae. Во-вторых, тогда имелось всего два файла PDB для этого белка (1ZIA и 1ZIB), что, на самом деле неплохо для 2001 года. В-третьих, сейчас стали по-другому оформлять Feature Table, в котором сейчас пишут больше информации о структуре белка. Но по факту, функция и строение белка были известны аж 20 лет назад.
С помощью Help, было изучено, как в записи обозначаются необычные свойства белка. Например:
- нестандартные аминокислоты (селеноцистеин и пирролизин) - NON_STD
- посттрансляционные модификации (фосфорилирование, гликозилирование,...) - MOD_RES
- альтернативный сплайсинг - VAR_SEQ
- дисульфидные связи - DISULFID