Практикум №5. Банк UniProt.
Анализ записи банка Uniprot о белке уридилат киназа (ID: PYRH_UREPA)
Для начала работы с последовательностью сперва ее надо найти в банке UniProt. Для этого:
- Открываем сайт самого банка UniProt.
- Используем форму "Retrieve/ID mapping".
- В первое окне вводим EMBL ID нашего белка (у меня это AAF30926.1).
- Выбираем из какого стороннего ресурса мы запрашиваем наш белок и где мы ищем совпадения (в нашем случае из "EMBL/GenBank/DDBJ CDS" в "UniProtKB").
- После нажатия кнопки "Submit" выдается таблица со списком сопоставленных белков.
- Переходим на страницу белка по его UniProt ID в столбце Entry.
Теперь мы видим отформатированную страничку, которую мы открываем в текстовом режиме (дописываем .txt в конец адреса страницы или Format->Text). Таким образом мы видим описание белка в формате UniProt. Теперь ищем необходимую информацию, которая будет отображена в Таблице 1.
- Рекомендуемое название в поле DE (RecName).
- Идентификаторы PDB и RefSeq в поле DR.
- Длину в аминокислотных остатках и молекулярную массу (MW) в дальтонах в поле SQ.
- И другая полезная информация, которая будет отражена в комментариях к таблице.
UniProt ID | PYRH_UREPA |
---|---|
UniProt AC | Q9PPX6 |
Название белка | Uridylate kinase |
RefSeq ID | WP_006688575.1 |
PDB ID | 2VA1 |
Длина белка (а.о.) | 235 |
Молекулярная масса (Да) | 25924 |
Рекомендуемое название | Uridylate kinase |
Помимо перечисленного в таблице в записи белка можно найти:
- Альтернативное название белка: Uridine monophosphate kinase. А также сокращенные варианты его названий: UK, UMP kinase или UMPK (все в полях DE).
- Название организма - источника данного белка - и его таксономию: Ureaplasma parvum serovar 3 (strain ATCC 700970) Bacteria; Tenericutes; Mollicutes; Mycoplasmataceae; Ureaplasma (в полях OS и OC соответственно).
- Описание функции (catalyzes the reversible phosphorylation of UMP to UDP, with ATP as the most efficient phosphate donor and also able to phosphorylate dUMP), каталитической активности (reaction=ATP + UMP = ADP + UDP), регуляция активности (Unlike other bacteria, is not activated by GTP. UTP is a competitive inhibitor against UMP and a non- competitive inhibitor toward ATP.), биофизикохимические свойства (kinetic parameters, pH dependence), метаболические пути (Pyrimidine metabolism; CTP biosynthesis via de novo pathway; UDP from UMP (UMPK route)), клеточная локализация (cytoplasm), родство (belongs to the UMP kinase family) и субединицы (homohexamer; trimer of dimers)
Описание кластеров UniRef
Ход работы:
- Открываем сайт самого банка UniProt.
- Используем форму "Retrieve/ID mapping".
- В первое окне вводим EMBL ID нашего белка (у меня это AAF30926.1).
- Выбираем из какого стороннего ресурса мы запрашиваем наш белок и где мы ищем совпадения (в нашем случае из "EMBL/GenBank/DDBJ CDS" в "UniProtKB").
- После нажатия кнопки "Submit" выдается таблица со списком сопоставленных белков.
- Переходим на страницу белка по его UniProt ID в столбце Entry.
- Матаем открывшеюся страничку вниз до таблицы "Similar proteins", в которой указан ID кластера (крайняя правая колонка) и указаны записи белков, входящие в этот кластер. При необходимости поподробнее изучить каждый кластер можно просто перейти по его ID. Там указана более подробная информация по каждой записи и есть название кластера.
UniRef100 | UniRef90 | UniRef50 | |
---|---|---|---|
ID кластера | UniRef100_Q9PPX6 | UniRef90_Q9PPX6 | UniRef50_Q9PPX6 |
Название кластера | Uridylate kinase (100%) | Uridylate kinase (90%) | Uridylate kinase (50%) |
Размер кластера | 4 | 6 | 16 |
Перечисленные кластеры содержат в себе одну аннотированную и проверенную запись (из Swiss-Prot) белка с UniProt ID: PYRH_UREPA. Помимо этого UniRef90 и UniRef100 содержат одну запись, которая относится к UniParc и при этом обозначена, как базовая или начальная (seed), а в UniRef50 таких записей 2. Остальные записи в кластерах относятся к непроверенным (из TrEmbl). Так же можно отметить, что последовательности с большей сходимостью входят в кластеры, содержащие записи белков меньшей сходимости (что в принципе очевидно). На отформатированной страничке с записью в формате UniProt отмечены кластеры схожести, однако в них не входит сам белок, поэтому в них указывалось количество записей -1.
Проведение нескольких сеансов поиска
-
Поиск по рекомендованному названию белка PYRH_UREPA
Текст запроса: [name:uridylate kinase]
Количество находок в Swiss-Prot: 555
Общее количество находок: 30167
-
Поиск по названию белка PYRH_UREPA в организме Ureaplasma parvum serovar 3 str. ATCC 700970
Текст запроса: [name:uridylate kinase and organism:Ureaplasma parvum serovar 3 str. ATCC 700970]
Количество находок в Swiss-Prot: 0
Общее количество находок: 0
Текст запроса: [name:uridylate kinase and organism:ureaplasma parvum serovar 3]
Количество находок в Swiss-Prot: 1
Общее количество находок: 2
-
Поиск по названию белка PYRH_UREPA среди белков из организмов того же семейства (Mycoplasmataceae)
Текст запроса: [name:uridylate kinase taxonomy:mycoplasmataceae]
Количество находок в Swiss-Prot: 12
Общее количество находок: 122
-
Поиск по названию белка PYRH_UREPA среди белков из организмов того же отдела (Tenericutes)
Текст запроса: [name:uridylate kinase taxonomy:tenericutes]
Количество находок в Swiss-Prot: 15
Общее количество находок: 221
Поиск гомеобоксов (homeobox)
-
Поиск по названию гомеобокс (homeobox) без ограничений на организмы
Текст запроса: [name:homeobox]
Количество находок в Swiss-Prot: 1396
Общее количество находок: 58127
-
Поиск по названию гомеобокс (homeobox) из таксона инфузории (Ciliophora)
Текст запроса: [name:homeobox taxonomy:ciliophora]
Количество находок в Swiss-Prot: 0
Общее количество находок: 2
-
Поиск по названию гомеобокс (homeobox) из таксона членистоногие (Arthropoda)
Текст запроса: [name:homeobox taxonomy:arthropoda]
Количество находок в Swiss-Prot: 57
Общее количество находок: 4951
Поиск трипсинов
-
Поиск по слову "трипсин" (trypsin)
Текст запроса: [name:trypsin]
Количество находок в Swiss-Prot: 312
Общее количество находок: 23018
-
Поиск трипсинов, исключая их ингибиторы
Текст запроса: [name:trypsin NOT name:inhibitor]
Количество находок в Swiss-Prot: 101
Общее количество находок: 18270
Различия в записях UniProt и RefSeq Protein
Рассмотрим две различные записи одного и того же белка PYRH_UREPA (UniProt ID) и WP_006688575.1 (RefSeq ID). На самом деле, различия огромны и разительны. Запись UniProt содержит на много больше информации о белке, которой нет в записи RefSeq. Ниже приведены некоторые отличия.
- В первой записи досконально расписаны свойства, функции, внутреннее устройство и т.п. про белок во второй же записи этой информации очень мало в поле FEATURES.
- Во второй записи белок имеет тольо одно название без перечисления возможных вариантов в поле DEFINITION.
- Во второй записи отсутствует перечисление работ, связанных с данным белком.
Историю изменений записи UniProt
В качестве примера был взят белок трипсин (UniProt ID: TRY1_HUMAN). Просмотрев его историю можно отметить, что примерно с периода 1991-08-01 по 1992-03-01 в названи белков вместо знака $ стали использовать _. Еще у этого белка 11 раз дополнялись accession number (всего их 12). Также помянялся вид номера релиза (старый: 15.11/57.11; новый: 2019_02).
Ключи таблицы локальных особенностей (Feature Table)
Во вкладке Help UniProt были найдены виды представления в записи следующих явлений:
- Нестандартные аминокислотные остатки (селеноцистеин или пирролизин): NON_STD.
FT NON_STD 52 52 Selenocysteine.
FT NON_STD 356 356 Pyrrolysine. {ECO:0000250}. - Посттрансляционная модификация (фосфорилирование, гликозилирование, ...): MOD_RES.
FT MOD_RES xxx xxx Name of the modified amino acid (comment).
FT MOD_RES 198 198 Phosphoserine; by CK2. - Дисульфидные связи: DISULFID.
FT DISULFID 29 29 Interchain (with C-8 in small chain). - Альтернативный сплайсинг: VAR_SEQ.
FT VAR_SEQ 653 672 VATSNPGKCLSFTNSTFTFT -> ALVSHHCPVEAVRAVHP - Варианты последовательности: VARIANT.
FT VARIANT 214 214 V -> I.