Знакомство с UniProt
В данном практикуме проводилась работа с UniProt и, в том числе, с UniRef для ознакомления с синтаксисом поиска, возможностями и структурой записи информации UniProt.
Получение информации о белке NTPA_ENTHA
В первом задании были найдены данные о белке (AFM70579.1) на сайте Uniprot с помощью формы "Retrieve/ID mapping". Для удобства страница белка была переведена в вид таблицы добавлением к адресу страницы ".txt". В поле DE можно найти рекомедуемое название, в поле DR – идентификаторы PDB и RefSeq, в поле SQ – длину в аминокислотных остатках и молекулярную массу (MW) в дальтонах. Полученная информация представлена в Таблице 1.
UniProt ID | NTPA_ENTHA |
---|---|
UniProt AC | Q08636; I6TB93 |
RefSeq ID | WP_010718637.1; NZ_KB946231.1 |
PDB ID | 3VR2; 3VR3; 3VR4; 3VR5; 3VR6; 5KNB; 5KNC; 5KND |
Длина белка (а.о.) | 593 |
Молекулярная масса (Да) | 65770 |
Рекомендуемое название | V-type sodium ATPase catalytic subunit A |
Первая структура белка была добавлена в базу данных Uniprot 1 ноября 1995 года, а последняя запись - 16 января 2019 (112 запись), что говорит о том, что информация о белке постоянно обновляется. Белок представлен в PDB восьмью записями. Структура белка известна, она представлена цепями A, B, C.
Поиск белка NTPA_ENTHA в UniRef
UniRef100 | UniRef90 | UniRef50 | |
---|---|---|---|
ID кластера | UniRef100_Q08636 | UniRef90_Q08636 | UniRef50_Q971B7 |
Название кластера | Cluster: V-type sodium ATPase catalytic subunit A | Cluster: V-type sodium ATPase catalytic subunit A | Cluster: V-type ATP synthase alpha chain |
Размер кластера | 6 | 21 | 3999 |
Во втором задании проводился поиск кластеров, содержащих белок, в Uniref с помощью Advanced Search. В поле Sequence Identity было указано Any,
a в поле UniProtKB ID/AC - Q08636. Полученный результат - кластеры, содержащие этот белок. Данные о размере, названиях кластеров и их ID можно увидеть в Таблице 2.
В кластере UniRef100 - целых 6 записей. Три белка, судя по длине, одинаковые, 2 других - фрагметы, и ещё один белок длины 600 а. о., о котором почти нет никакой информации (из банка UniParc). В кластере UniRef90 и UniRef100 были только белки из рода Enterococcus, в UniRef50 - субъединицы А АТФ-азы типа V из разных организмов.
Сеансы поиска в UniProt
Для ознакомления с синтаксисом UniProt были проведены сеансы поиска белка среди рода организма, семейства и отдела. Результаты, включающие в себя количество нашедшихся записей и ссылки на запросы, представлены ниже. Также проводились сеансы поиска гомеобокса среди членистоногих, грибов и всех организмов. Кроме того, необходимо было найти количество записей, в названии которых есть трипсин, и записи, в числе которых не было ингибиторов трипсина. Я выполнила это следующим образом: чтобы исключить из списка различные ингибиторы, я добавила в строку поиска "not name:inhibitor".
Поиск V-type sodium ATPase catalytic subunit A
Текст запроса: "name:"5 type sodium atpase catalytic subunit a""
Количество находок в Swiss-Prot: 1
Общее количество находок: 34
Ссылка
Текст запроса: "name:"5 type sodium atpase catalytic subunit a" organism:enterococcus"
Количество находок в Swiss-Prot: 1
Общее количество находок: 2
Ссылка
Текст запроса: "name:"5 type sodium atpase catalytic subunit a" taxonomy:enterococcaceae"
Количество находок в Swiss-Prot: 1
Общее количество находок: 2
Ссылка
Текст запроса: "name:"5 type sodium atpase catalytic subunit a" taxonomy:firmicutes"
Количество находок в Swiss-Prot: 1
Общее количество находок: 9
Ссылка
Поиск гомеобокс
Текст запроса: "name:homeobox"
Количество находок в Swiss-Prot: 1396
Общее количество находок: 58127
Ссылка
Текст запроса: "name:homeobox taxonomy:arthropoda"
Количество находок в Swiss-Prot: 59
Общее количество находок: 4951
Ссылка
Текст запроса: "name:homeobox taxonomy:fungi"
Количество находок в Swiss-Prot: 18
Общее количество находок: 1578
Ссылка
Поиск трипсинов
Текст запроса: "name:trypsin"
Количество находок в Swiss-Prot: 312
Общее количество находок: 23018
Ссылка
Текст запроса: "name:trypsin not name:inhibitor"
Количество находок в Swiss-Prot: 101
Общее количество находок: 18270
Ссылка
При поиске по рекомендованному имени нашлось 34 записи, но существование только одного из этих белков доказано на экспериметальном уровне, остальные 33 - только предсказаны. Также оказалось, что после введения названия белка "V-type sodium ATPase catalytic subunit A" UniRef меняет его на "5 type sodium atpase catalytic subunit a". Однако, если попытаться провести более углубленный поиск, добавив к этому названию, напрмер, таксон, UniRef не выдаёт никаких результатов, поэтому пришлось вводить правильное название каждый раз заново, что показалось мне не очень удобным. После проведения сеансов поиска гомеобокса среди грибов и членистоногих, оказалось, что количество записей первых почти в три раза меньше вторых. Так как грибы являются довольно популярныим предметом проведения экспериментов, можно предположить, что маленькое количество записей связано с более редкой встечаемостью гомеобокса у грибов в сравнении с членистоногими. При поиске по слову "трипсин" во второй раз были отсеяны ингибиторы, но следует заметить, что этого было бы недостаточно для того, чтобы найти сами трипсины, так как в нашедшихся записях есть, например, рецепторы трипсина, факторы, модифицирующие трипсин и т.п. Если бы нужно было найти белки из семейства трипсинов, в поисковую строку следовало бы добавить "ec:3.4.21.4".
Изучение записей Uniprot для получении информации об альтернативном сплайсинге
Чтобы понять, как представлен в записи UniProt альтернативный сплайсинг, был проведен поиск на сайте Uniprot в Help и проанализирована информация об альтернативном сплайсинге в записях примеров, которые представлены на сайте Uniprot.
Согласно найденной информации, если у белка есть изоморфы, появившиеся в результате альтернативного сплайсинга, то об этом пишется в графе Alternative Products, которая может быть найдена в Комментариях (СС), а также в Ключевых словах (KW). Каждому изоморфу приписывается свой номер, который пишется через девис после номера UniProt (например, P04150-2). Когда альтернативные белки существенно различаются, им создают отдельные записи, в каждой из которых прописываются все изоморфы (например, P42166, P42167). Один из этих изоморфов принимается как канонический, остальные с ним сравниваются. В подграфе Feature Table VAR_SEQ прописано, какие варианты участков присутствуют в тех или иных изоморфах. Также можно сравнить характеристики изоморфов, если кликнуть на кнопку Align в Sequences. Там же можно найти ссылки на потенциальные изоморфы.
Найти белки, получившиеся в результате альтернативного сплайсинга, можно, добавив в строку поиска "keyword:"alternative splicing"".