Навигация по сайту: |
Практикум 5. Работа с UniProt1. Общие данные о белке
КомментарииФермент закодирован в плазмиде pRL9, одной их шести[1] плазмид Rhizobium leguminosarum bv. viciae (штамм 3841). В поле "Sequence" на странице
UniProt указано, что белок отсеквенирован полностью.
Показано, что белок образует тетрамер (димер димеров)[2]. В PDB представлен одной цепью, как Asymmetric unit,
и четырьмя в Biological assembly; стоит еще отметить, что ионы Na+ и CH3COO- в структуру PDB
попали из-за используемой методики получения кристалла белка[2]. Биологическая функция — гидролиз фосфоди- и фосфомоноэфиров[2].
Также данный фермент является первой описанной гидролазой, не являющейся при этом сульфатазой (для которых такое строение типично),
использующей C-формилглицин(оксоаланин) как нуклеофил активного центра[2]. Сверху расположена последовательность, находящаяся в PDB, а снизу последовательность исследуемого белка (обозначена как query_67821). Можно предположить, что в PDB находится некая примерная автоматическая аннотация: из выравнивая видно, что query_67821 короче на 30 аминокислот, то есть программа-аннотатор выбрала неправильный стартовый кодон. Также любобытна отмеченная красным "мутация" в 57 остатке query_67821. Из [2] мы знаем, что тут расположена нестандартная аминокислота активного центра — тот самый С-формилглицин. В записи UniProt 57 остаток это цистеин, который является субстратом так назваемых формил-генерирующих ферментов (FGE), модицифирующих его в С-формилглицин[3]. В последовательности из PDB эта аминокислота, скорее всего не распознана и отмечена как "Х". 2. Кластеры UniRef
3. Поиск в UniProtНебольшой комментарий: так как в рекомендуемом названии белка есть его уникальный номер в плазмиде, мне показалось не очень результативным искать только используя рекомендованное название. Было произведено еще четыре поиска с рекомендуемым названием, из которого был удален номер гена в плазмиде. Как можно видеть, это дало результаты при поиске по филуму.
Трипсин. Всего по запросу "name:trypsin" было найдено 18951 белков. По запросу 'name:trypsin and name:inhibitor' было найдено 3914 белков. Такая формулировка запроса лучше чем 'name:"trypsin inhibitor"', поскольку с помощью запроса (name:trypsin and name:inhibitor) and not name:"trypsin inhibitor" можно найти 160 белков, которые не попадают во второй запрос, но попадают в первый. Это связано с тем, что name:"<word1> <word2>" ищет заданные слова только в определенном порядке и не находит, к примеру, "trypsin/chymotrypsin inhibitor". 4. Дополнительные заданияРазбор отличий записи RefSeq Protein и UniProt По сравнению с NCBI, в записи UniProt содержится больше информации о белке, по большей части взятой из статей его описывающих, со ссылками на эти статьи. К примеру, информация о мутагенезе аминокислот активного центра, посттрансляционные модификации белка, данные о родственных белках и доменах из различных баз данных (Поля "DR"). Анализ истории изменения записи исследуемого белка Всего у записи с АС=Q1M964 на момент написания (19.03.18) существует 82 версии. Можно видеть, что до 80 версии актуальная версия белка находилась в базе данных TrEMBL с Uniprot ID=Q1M964_RHILV (самая первая версия) и Q1M964_RHIL3 (записи со 2 по 79 включительно). С 80 записи белок "переехал" в Swiss-Prot, то есть была произведена его аннотация человеком. ID тоже сменился и стал RLPMH_RHIL3. С версии 1 по 82 можно наблюдать увеличения объема данных о белке: в первой записи была только последовательность и плазмида из которой его выделили(pRL9). Данные получены из статьи [1], являющейся обзором генома R. leguminosarum. В 82 версии были добавлены данные по мутагенезу, кинетические параметры фермента, полученные скорее всего из [2], ссылки ("DR") на другие базы данных. Обозначения определенных фич белка
Ссылки
|
© Пушкарев Сергей, 2018