Упражнения в UniProt
Здесь продолжается работа с белком, выданным в первом семестре. Цель задания — изучить основные приёмы работы с UniProt, поэтому оно состоит из соответствующих упражнений.
Первичное получение информации о белке MDH_SALRD
Изначально белок был выдан в виде своего GenBank AC — ABC45135.1. Для того чтобы найти его в UniProt, была использована форма "Retrieve/ID mapping" (from EMBL/GenBank/DDBJ CDS to UniProtKB). В результате была найдена запись об искомом белке, некоторые данные из которой представлены в таблице 1.
UniProt ID | MDH_SALRD |
---|---|
UniProt AC | Q2S289 |
Название белка | Malate dehydrogenase |
RefSeq ID | WP_011404318.1; YP_445692.1 |
PDB ID | 3NEP |
Длина белка (а.о.) | 314 |
Молекулярная масса (Да) | 33256 |
Рекомендуемое название | Malate dehydrogenase |
По умолчанию UniProt показывает страницу белка с цветным дизайном и картинками, созданную на основе записи. В таком виде информацию легко воспринимать, но может быть сложно найти. Поэтому удобнее оказалось рассматривать текстовый вид записи. Также была изучена соответствующая страница RSCB PDB. В PDB-модели представлена одна цепь размером 314 а. о., что совпадает с длиной белка по SwissProt. Файл "Bioassembly 1" содержит 4 модели — в белке 4 субъединицы в четвертичной структуре.
Поиск связанных кластеров UniRef
Зная идентификатор белка, воспользуемся формой "Retrieve/ID mapping" (from UniProtKB AC/ID to UniRef100). Далее пройдём по ссылкам "Expand cluster to 90% or 50% identity", чтобы попасть на записи UniRef90 и UniRef50 соответственно. Данные о записях UniRef представлены в таблице 2.
Раздел UniRef | ID кластера | Название кластера | Размер кластера |
---|---|---|---|
UniRef100 | UniRef100_Q2S289 | Cluster: Malate dehydrogenase (100%) | 2 |
UniRef90 | UniRef90_Q2S289 | Cluster: Malate dehydrogenase (90%) | 11 |
UniRef50 | UniRef50_P49814 | Cluster: Malate dehydrogenase (50%) | 4983 |
Интересно, что даже в UniRef100 в кластере оказалось два белка: молекула D5H9I4_SALRM должна была совпасть на 100 % с аннотированной и известной на уровне белка MDH_SALRD, но попала в класс "Inferred from homology" TrEMBL.
Сеансы поиска в UniProt
Чтобы изучить возможности поиска в базах UniProt, были проведены различные сеансы — как связанные с белком MDH_SALRD, так и не связанные. При составлении запросов было использовано меню "Advanced". Подробно результаты проведённых сеансов изложены ниже.
Поиск малатдегидрогеназы
-
Поиск белков, содержащих те же слова в имени
Текст запроса: ‘name:malate name:dehydrogenase’
Количество находок в Swiss-Prot: 810
Общее количество находок: 63884
-
Уточняем таксономию до вида
Текст запроса: ‘name:malate name:dehydrogenase organism:"salinibacter ruber strain dsm 13855 m31"’
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
-
Ищем белки в пределах семейства
Текст запроса: ‘name:malate name:dehydrogenase taxonomy:rhodothermaceae’
Количество находок в Swiss-Prot: 1
Общее количество находок: 12
-
Переходим к масштабу отдела
Текст запроса: ‘name:malate name:dehydrogenase taxonomy:bacteroidetes’
Количество находок в Swiss-Prot: 22
Общее количество находок: 4275
Поиск аллергенов
-
Ищем все белки со словом «аллерген» в названии
Текст запроса: ‘name:allergen’
Количество находок в Swiss-Prot: 483
Общее количество находок: 11242
-
Сужаем область поиска до бурых водорослей
Текст запроса: ‘name:allergen taxonomy:phaeophyceae’
Количество находок в Swiss-Prot: 0
Общее количество находок: 1
-
Поиск аллергенов у зелёных растений
Текст запроса: ‘name:allergen taxonomy:viridiplantae’
Количество находок в Swiss-Prot: 309
Общее количество находок: 2148
Поиск трипсинов
-
Поиск по слову «трипсин»
Текст запроса: ‘name:trypsin’
Количество находок в Swiss-Prot: 312
Общее количество находок: 23018
-
Поиск трипсинов, исключая их ингибиторы
Текст запроса: ‘name:trypsin NOT name:inhibitor’
Количество находок в Swiss-Prot: 101
Общее количество находок: 18270
Интересно, что при поиске в левой части страницы появляется меню "Popular organisms", дающее быстрые ссылки на список искомых белков у некоторых часто используемых модельных организмов. Непонятно только, по какому признаку это меню сортируется.