Go back

Знакомство с UniProt

В данном практикуме проводилась работа с UniProt и, в том числе, с UniRef для ознакомления с синтаксисом поиска, возможностями и структурой записи информации UniProt.


Получение информации о белке NTPA_ENTHA

В первом задании были найдены данные о белке (AFM70579.1) на сайте Uniprot с помощью формы "Retrieve/ID mapping". Для удобства страница белка была переведена в вид таблицы добавлением к адресу страницы ".txt". В поле DE можно найти рекомедуемое название, в поле DR – идентификаторы PDB и RefSeq, в поле SQ – длину в аминокислотных остатках и молекулярную массу (MW) в дальтонах. Полученная информация представлена в Таблице 1.

Таблица 1. Основная информация о белке NTPA_ENTHA из UniProt.
UniProt ID NTPA_ENTHA
UniProt AC Q08636; I6TB93
RefSeq ID WP_010718637.1; NZ_KB946231.1
PDB ID 3VR2; 3VR3; 3VR4; 3VR5; 3VR6; 5KNB; 5KNC; 5KND
Длина белка (а.о.) 593
Молекулярная масса (Да) 65770
Рекомендуемое название V-type sodium ATPase catalytic subunit A

Первая структура белка была добавлена в базу данных Uniprot 1 ноября 1995 года, а последняя запись - 16 января 2019 (112 запись), что говорит о том, что информация о белке постоянно обновляется. Белок представлен в PDB восьмью записями. Структура белка известна, она представлена цепями A, B, C.


Поиск белка NTPA_ENTHA в UniRef

Таблица 2. Кластеры UniRef, содержащие белок NTPA_ENTHA.
UniRef100 UniRef90 UniRef50
ID кластера UniRef100_Q08636 UniRef90_Q08636 UniRef50_Q971B7
Название кластера Cluster: V-type sodium ATPase catalytic subunit A Cluster: V-type sodium ATPase catalytic subunit A Cluster: V-type ATP synthase alpha chain
Размер кластера 6 21 3999



Во втором задании проводился поиск кластеров, содержащих белок, в Uniref с помощью Advanced Search. В поле Sequence Identity было указано Any, a в поле UniProtKB ID/AC - Q08636. Полученный результат - кластеры, содержащие этот белок. Данные о размере, названиях кластеров и их ID можно увидеть в Таблице 2.

В кластере UniRef100 - целых 6 записей. Три белка, судя по длине, одинаковые, 2 других - фрагметы, и ещё один белок длины 600 а. о., о котором почти нет никакой информации (из банка UniParc). В кластере UniRef90 и UniRef100 были только белки из рода Enterococcus, в UniRef50 - субъединицы А АТФ-азы типа V из разных организмов.


Сеансы поиска в UniProt

Для ознакомления с синтаксисом UniProt были проведены сеансы поиска белка среди рода организма, семейства и отдела. Результаты, включающие в себя количество нашедшихся записей и ссылки на запросы, представлены ниже. Также проводились сеансы поиска гомеобокса среди членистоногих, грибов и всех организмов. Кроме того, необходимо было найти количество записей, в названии которых есть трипсин, и записи, в числе которых не было ингибиторов трипсина. Я выполнила это следующим образом: чтобы исключить из списка различные ингибиторы, я добавила в строку поиска "not name:inhibitor".


Поиск V-type sodium ATPase catalytic subunit A


Поиск по ReqName

Текст запроса: "name:"5 type sodium atpase catalytic subunit a""
Количество находок в Swiss-Prot: 1
Общее количество находок: 34
Ссылка

Поиск среди белков Enterococcus

Текст запроса: "name:"5 type sodium atpase catalytic subunit a" organism:enterococcus"
Количество находок в Swiss-Prot: 1
Общее количество находок: 2
Ссылка

Поиск среди белков Enterococcaceae

Текст запроса: "name:"5 type sodium atpase catalytic subunit a" taxonomy:enterococcaceae"
Количество находок в Swiss-Prot: 1
Общее количество находок: 2
Ссылка

Поиск среди белков Firmicutes

Текст запроса: "name:"5 type sodium atpase catalytic subunit a" taxonomy:firmicutes"
Количество находок в Swiss-Prot: 1
Общее количество находок: 9
Ссылка




Поиск гомеобокс

По всем организмам

Текст запроса: "name:homeobox"
Количество находок в Swiss-Prot: 1396
Общее количество находок: 58127
Ссылка

По членистоногим

Текст запроса: "name:homeobox taxonomy:arthropoda"
Количество находок в Swiss-Prot: 59
Общее количество находок: 4951
Ссылка

По грибам

Текст запроса: "name:homeobox taxonomy:fungi"
Количество находок в Swiss-Prot: 18
Общее количество находок: 1578
Ссылка




Поиск трипсинов

Поиск по слову "трипсин"

Текст запроса: "name:trypsin"
Количество находок в Swiss-Prot: 312
Общее количество находок: 23018
Ссылка

Поиск по слову "трипсин", исключая ингибиторы

Текст запроса: "name:trypsin not name:inhibitor"
Количество находок в Swiss-Prot: 101
Общее количество находок: 18270
Ссылка

При поиске по рекомендованному имени нашлось 34 записи, но существование только одного из этих белков доказано на экспериметальном уровне, остальные 33 - только предсказаны. Также оказалось, что после введения названия белка "V-type sodium ATPase catalytic subunit A" UniRef меняет его на "5 type sodium atpase catalytic subunit a". Однако, если попытаться провести более углубленный поиск, добавив к этому названию, напрмер, таксон, UniRef не выдаёт никаких результатов, поэтому пришлось вводить правильное название каждый раз заново, что показалось мне не очень удобным. После проведения сеансов поиска гомеобокса среди грибов и членистоногих, оказалось, что количество записей первых почти в три раза меньше вторых. Так как грибы являются довольно популярныим предметом проведения экспериментов, можно предположить, что маленькое количество записей связано с более редкой встечаемостью гомеобокса у грибов в сравнении с членистоногими. При поиске по слову "трипсин" во второй раз были отсеяны ингибиторы, но следует заметить, что этого было бы недостаточно для того, чтобы найти сами трипсины, так как в нашедшихся записях есть, например, рецепторы трипсина, факторы, модифицирующие трипсин и т.п. Если бы нужно было найти белки из семейства трипсинов, в поисковую строку следовало бы добавить "ec:3.4.21.4".


Изучение записей Uniprot для получении информации об альтернативном сплайсинге

Чтобы понять, как представлен в записи UniProt альтернативный сплайсинг, был проведен поиск на сайте Uniprot в Help и проанализирована информация об альтернативном сплайсинге в записях примеров, которые представлены на сайте Uniprot.

Согласно найденной информации, если у белка есть изоморфы, появившиеся в результате альтернативного сплайсинга, то об этом пишется в графе Alternative Products, которая может быть найдена в Комментариях (СС), а также в Ключевых словах (KW). Каждому изоморфу приписывается свой номер, который пишется через девис после номера UniProt (например, P04150-2). Когда альтернативные белки существенно различаются, им создают отдельные записи, в каждой из которых прописываются все изоморфы (например, P42166, P42167). Один из этих изоморфов принимается как канонический, остальные с ним сравниваются. В подграфе Feature Table VAR_SEQ прописано, какие варианты участков присутствуют в тех или иных изоморфах. Также можно сравнить характеристики изоморфов, если кликнуть на кнопку Align в Sequences. Там же можно найти ссылки на потенциальные изоморфы.

Найти белки, получившиеся в результате альтернативного сплайсинга, можно, добавив в строку поиска "keyword:"alternative splicing"".