UniProt. Endoglucanase E1.
Этот практикум посвящен обучению использования базы данных UniProt для быстрого и удобного получения необходимой информации.
Получение информации о белке GUN1_ACIC1
При помощи GenBank AC выданного мне белка, я нашла файл в UniProt, сожержащий основную информацию о нем. Некоторые найденные мной данные приведены в таблице 1.
UniProt ID | GUN1_ACIC1 |
---|---|
UniProt AC | P54583 |
RefSeq ID | WP_011719450.1 |
PDB ID | 1ECE; 1VRX |
Длина белка (а.о.) | 562 |
Молекулярная масса (Да) | 60748 |
Рекомендуемое название | Endoglucanase E1 |
В UniProt информция о белках представлена в очень удобном виде. Если знать струртуру одного файла в базе UniProt, во всех остальных файлах очень просто найти все необходимое. Мне понравилось искать информацию для таблицы в этой базе данных.
Поиск белка GUN1_ACIC1 в UniRef
Все белки имеют свои три кластера. С помощью UniProt ID белка я нашла среди UniRef информацию о кластерах для данного белка. Сведения о принадлежности белка к кластерам предлставлены в таблице 2.
Раздел UniRef | ID кластера | Название кластера | Размер кластера |
---|---|---|---|
UniRef100 | UniRef100_P54583 | Cluster: Endoglucanase E1 | 2 |
UniRef90 | UniRef90_P54583 | Cluster: Endoglucanase E1 | 2 |
UniRef50 | UniRef50_P54583 | Cluster: Endoglucanase E1 | 63 |
Кластеры ссылок UniProt (UniRef) состоят из трёх баз данных: UniRef100, UniRef90 и UniRef50. База данных UniRef100 сочетает идентичные последовательности и фрагменты последовательности в одной записи UniRef. Каждый из двух последних кластеров состоит из последовательностей, которые имеют не менее 90 % и не менее 50 % идентичности, соответственно, с самой длинной найденной последовательностью. Кластеризация последовательностей значительно уменьшает размер базы данных: UniRef100, UniRef90 и UniRef50 дают уменьшение размера базы данных примерно на ~ 10, 40 и 70 %, соответственно. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надёжность поиска далёких родственных белков.
Сеансы поиска в UniProt
Для лучшего понимания работы с базой данных UniProt были проведны некоторые сеансы поиска. С помощью кнопки "Advanced" и возможности комбинировать слова в запросе была получена информация, которая представлена ниже.
Поиск Эндоглюконазы Е1.
Поиск Эндоглюконазы Е1 по рекомендованному названию.
Текст запроса: name:"endoglucanase e1"
Количество находок в Swiss-Prot: 1
Общее количество находок: 117
Поиск Эндоглюконазы Е1 в организме.
Текст запроса: name:"endoglucanase e1" organism:"acidothermus cellulolyticus strain atcc 43068 11b"
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
Поиск Эндоглюконазы Е1 в семействе Acidothermaceae.
Текст запроса: name:"endoglucanase e1" taxonomy:"acidothermaceae"
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
Поиск Эндоглюконазы Е1 в отделе Actinobacteria.
Текст запроса: name:"endoglucanase e1" taxonomy:"actinobacteria"
Количество находок в Swiss-Prot: 1
Общее количество находок: 20
Поиск цитохромов.
Поиск цитохромов без ограничеия на организмы.
Текст запроса: name:"cytochrome"
Количество находок в Swiss-Prot: 7713
Общее количество находок: 2570961
Поиск цитохромов в грибах.
Текст запроса: name:"cytochrome" taxonomy:"fungi"
Количество находок в Swiss-Prot: 695
Общее количество находок: 57890
Поиск цитохромов в инфузориях.
Текст запроса: name:"cytochrome" taxonomy:"ciliophora"
Количество находок в Swiss-Prot: 6
Общее количество находок: 1912
Поиск трипсинов.
Поиск по слову "трипсин".
Текст запроса: name:"trypsin"
Количество находок в Swiss-Prot: 312
Общее количество находок: 22706
Поиск трипсинов, исключая их ингибиторы.
Текст запроса: name:"trypsin" NOT name:"inhibitor"
Количество находок в Swiss-Prot: 101
Общее количество находок: 18169
Поиск очень удобный и быстрый, особенно для получения статистичеких данных.