Учебный сайт Сергея Пушкарева

Навигация по сайту:

Практикум 5. Работа с UniProt

1. Общие данные о белке

Рекомендуемое UniProt название Multifunctional alkaline phosphatase superfamily protein pRL90232
UniProt IDRLPMH_RHIL3
UniProt ACQ1M964
RefSeq IDWP_011649751.1
PDB ID2VQR
Длина, aa514
Молекулярная масса, Da58054

Комментарии

Фермент закодирован в плазмиде pRL9, одной их шести[1] плазмид Rhizobium leguminosarum bv. viciae (штамм 3841). В поле "Sequence" на странице UniProt указано, что белок отсеквенирован полностью. Показано, что белок образует тетрамер (димер димеров)[2]. В PDB представлен одной цепью, как Asymmetric unit, и четырьмя в Biological assembly; стоит еще отметить, что ионы Na+ и CH3COO- в структуру PDB попали из-за используемой методики получения кристалла белка[2]. Биологическая функция — гидролиз фосфоди- и фосфомоноэфиров[2]. Также данный фермент является первой описанной гидролазой, не являющейся при этом сульфатазой (для которых такое строение типично), использующей C-формилглицин(оксоаланин) как нуклеофил активного центра[2].
В процессе изучения страницы белка в PDB было обнаружено несоответствие данных UniProt и PDB. По последним данным UniProt в белке 514 аминокислот. В UniParc был найден файл из PDB и в нем 543 аминокислотных остатков. Выравнив их с помощью BLASTP, получили такое выравнивание:



Сверху расположена последовательность, находящаяся в PDB, а снизу последовательность исследуемого белка (обозначена как query_67821). Можно предположить, что в PDB находится некая примерная автоматическая аннотация: из выравнивая видно, что query_67821 короче на 30 аминокислот, то есть программа-аннотатор выбрала неправильный стартовый кодон. Также любобытна отмеченная красным "мутация" в 57 остатке query_67821. Из [2] мы знаем, что тут расположена нестандартная аминокислота активного центра — тот самый С-формилглицин. В записи UniProt 57 остаток это цистеин, который является субстратом так назваемых формил-генерирующих ферментов (FGE), модицифирующих его в С-формилглицин[3]. В последовательности из PDB эта аминокислота, скорее всего не распознана и отмечена как "Х".

2. Кластеры UniRef

КластерIDКоличество белков в кластере
UniRef100UniRef100_Q1M9641*
UniRef90UniRef90_Q1M96414*
UniRef50UniRef50_Q4508764
*Включая сам белок Q1M964

3. Поиск в UniProt

Небольшой комментарий: так как в рекомендуемом названии белка есть его уникальный номер в плазмиде, мне показалось не очень результативным искать только используя рекомендованное название. Было произведено еще четыре поиска с рекомендуемым названием, из которого был удален номер гена в плазмиде. Как можно видеть, это дало результаты при поиске по филуму.

Текст запросаВсего найдено белковБелков Swiss-Prot
name:"Multifunctional alkaline phosphatase superfamily protein pRL90232" 11
name:"Multifunctional alkaline phosphatase superfamily protein" 32
name:"Multifunctional alkaline phosphatase superfamily protein pRL90232" and taxonomy:"Rhizobium leguminosarum" 11
name:"Multifunctional alkaline phosphatase superfamily protein" and taxonomy:"Rhizobium leguminosarum" 11
name:"Multifunctional alkaline phosphatase superfamily protein pRL90232" and taxonomy:"Rhizobiaceae" 11
name:"Multifunctional alkaline phosphatase superfamily protein" and taxonomy:"Rhizobiaceae" 11
name:"Multifunctional alkaline phosphatase superfamily protein pRL90232" and taxonomy:"Proteobacteria" 11
name:"Multifunctional alkaline phosphatase superfamily protein" and taxonomy:"Proteobacteria" 22
name:albumin88677
name:albumin and taxonomy:fungi20
name:albumin and taxonomy:Metazoa31743

Трипсин. Всего по запросу "name:trypsin" было найдено 18951 белков. По запросу 'name:trypsin and name:inhibitor' было найдено 3914 белков. Такая формулировка запроса лучше чем 'name:"trypsin inhibitor"', поскольку с помощью запроса (name:trypsin and name:inhibitor) and not name:"trypsin inhibitor" можно найти 160 белков, которые не попадают во второй запрос, но попадают в первый. Это связано с тем, что name:"<word1> <word2>" ищет заданные слова только в определенном порядке и не находит, к примеру, "trypsin/chymotrypsin inhibitor".

4. Дополнительные задания

Разбор отличий записи RefSeq Protein и UniProt

По сравнению с NCBI, в записи UniProt содержится больше информации о белке, по большей части взятой из статей его описывающих, со ссылками на эти статьи. К примеру, информация о мутагенезе аминокислот активного центра, посттрансляционные модификации белка, данные о родственных белках и доменах из различных баз данных (Поля "DR").

Анализ истории изменения записи исследуемого белка

Всего у записи с АС=Q1M964 на момент написания (19.03.18) существует 82 версии. Можно видеть, что до 80 версии актуальная версия белка находилась в базе данных TrEMBL с Uniprot ID=Q1M964_RHILV (самая первая версия) и Q1M964_RHIL3 (записи со 2 по 79 включительно). С 80 записи белок "переехал" в Swiss-Prot, то есть была произведена его аннотация человеком. ID тоже сменился и стал RLPMH_RHIL3. С версии 1 по 82 можно наблюдать увеличения объема данных о белке: в первой записи была только последовательность и плазмида из которой его выделили(pRL9). Данные получены из статьи [1], являющейся обзором генома R. leguminosarum. В 82 версии были добавлены данные по мутагенезу, кинетические параметры фермента, полученные скорее всего из [2], ссылки ("DR") на другие базы данных.

Обозначения определенных фич белка

FeatureВид в записи Uniprot
Нестандартные аминокислотыУказаны в поле "FT" как NON_STD, а также в поле SQ (Sequence): селенометионин обозначается как U, пирролизин как О.
Дисульфидные мостикиВ поле "FT" после "DISULFID" указаны номера остатков, образующих мостик. Если один из номеров не известен, то он обозначается как "?".

Ссылки

  1. Young, Peter et al. The genome of Rhizobium leguminosarum has recognizable core and accessory components. Genome Biology 2006 7(4):R34.
  2. Jonas, Stefanie et al. A New Member of the Alkaline Phosphatase Superfamily with a Formylglycine Nucleophile: Structural and Kinetic Characterisation of a Phosphonate Monoester Hydrolase/Phosphodiesterase from Rhizobium leguminosarum. J.Mol.Biol. 384: 120.
  3. Carlson, Brian L. et al. Function and Structure of a Prokaryotic Formylglycine-generating Enzyme The Journal of Biological Chemistry 283, 20117-20125.

© Пушкарев Сергей, 2018