Знакомство с UniProt

Этот практикум необходим для знакомства с базой данных Uniprot

Получение информации о белке GFP_AEQVI из UniProt

Был произведён поиск белка в Uniprot. На запрос была выдана только одна запись о белке 6JGH. Все основные данные о белке приведены в таблице 1.

Таблица 1. Основная информация о белке GFP_AEQVI
UniProt ID GFP_AEQVI
UniProt AC P42212; Q17104; Q27903; Q93125;
Рекомендуемое название Green fluorescent protein
EMBL ID M62654; M62653; L29345; X96418; U73901;
PDB ID Всего было найдено 337 обозначений. С полным списком вы можете ознакомиться по ccылке
Длина белка (а.о.) 238
Молекулярная масса (Да) 26886

Белок состоит из одной цепи, в его структуре встречаются как альфа-спирали, так и бета-тяжи. Белок достаточно хорошо изучен и нашёл широкое применение в молекулярной и клеточной биологии в качестве биосенсора.
Одна из причин большого количества упоминаний в PDB заключается в том, что многие из них представляют собой структуру одного и того же белка с разным разрешением рентгеноструктурного анализа. Вероятно, что при вставке в геном животного гена, кодирующего GFP, в конечном счёте белок претерпевает мутации, которые необходимо отразить, создавая новую страницу PDB.


Поиск кластеров UniRef


Таблица 2. Кластеры UniRef, содержащие белок GFP_AEQVI
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_P42212 Cluster: Green fluorescent protein 2
UniRef90 UniRef90_P42212 Cluster: Green fluorescent protein 22
UniRef50 UniRef50_P42212 Cluster: Green fluorescent protein 75

Kластер UniRef100 содержит 2 белка - один из них является выбранным белком ( получен из медузы Aequorea victoria), другой белок выделен из бактерии Azotobacter vinelandii. Но его сущестование лишь теоретически предсказано, к тому же страница об этом белке находится в разделе Unreviewed.
Кластер UniRef90 содержит 22 белка, которыми обладают медуза Aequorea victoria и несколько бактерий из различных семейств ( Legionellaceae, Neisseriaceae, Staphylococcaceae). Примечательно, что в бактериях не было зафиксировано наличия самого белка, а лишь теоретически предсказано его существование.
Кластер UniRef50 содержит 75 элементов, которые либо являются функциональными аналогами GFP, либо являются гипотетическими белками.


Сеансы поиска в UniProt

Были проведены следующие сеансы поиска:

Поиск GFP

Поиск по рекомендованному названию белка
Текст запроса: name:"green fluorescent protein"
Количество находок в Swiss-Prot: 2
Количество находок в TrEMBL: 231
Всего: 233

Поиск по тому же названию среди белков организма Aequorea victoria
Текст запроса: name:"green fluorescent protein" organism:"aequorea victoria"
Количество находок в Swiss-Prot: 1
Количество находок в TrEMBL: 6
Всего: 7

Поиск по тому же названию среди белков из организмов семейства Aequoreidae
Текст запроса:name:"green fluorescent protein" taxonomy:"Aequoreidae [128126]"
Количество находок в Swiss-Prot: 1
Количество находок в TrEMBL: 16
Всего: 17

Поиск по тому же названию среди белков из организмов отдела Cnidaria
Текст запроса:name:"green fluorescent protein" taxonomy:"Cnidaria [6073]"
Количество находок в Swiss-Prot: 1
Количество находок в TrEMBL: 175
Всего: 176

Поиск лизоцима

Поиск среди всех организмов
Текст запроса: name:lysozyme
Количество находок в Swiss-Prot: 242
Количество находок в TrEMBL: 42455
Всего: 42697

Поиск среди грибов(Fungi)
Текст запроса: name:lysozyme taxonomy:"Fungi [4751]"
Количество находок в Swiss-Prot: 2
Количество находок в TrEMBL: 427
Всего: 429

Поиск среди зелёных растений(Viridiplantae)
Текст запроса: name:lysozyme taxonomy:"Viridiplantae [33090]"
Количество находок в Swiss-Prot: 3
Количество находок в TrEMBL: 47
Всего: 50

Трипсин и не совсем трипсин

Поиск по названию "трипсин"
Текст запроса: name:trypsin
Количество находок в Swiss-Prot: 320
Количество находок в TrEMBL: 29210
Всего: 29530

Поиск по названию "трипсин", исключая его ингибиторы
Текст запроса: name:trypsin NOT name:inhibitor
Количество находок в Swiss-Prot: 104
Количество находок в TrEMBL: 24465
Всего: 24569



Ключи таблицы локальных особенностей (Feature Table)


Альтернативный сплайсинг
Пример взят из P04150(Glucocorticoid receptor). Показываются свидетельства альтернативного сплайсинга(указывается изоформа, в которой нет этой части последовательности, и ссылка на PubMed)

FT   VAR_SEQ         313..338
FT                   /note="Missing (in isoform 10)"
FT                   /evidence="ECO:0000303|PubMed:17404046"
FT                   /id="VSP_043908"

Неканонические аминокислотные остатки
Пример взят из Q8TTA5(Dimethylamine methyltransferase MtbB1). Показывается номер аминокислотного остатка и указывается его название.

FT   NON_STD         356
FT                   /note="Pyrrolysine"
FT                   /evidence="ECO:0000250"

Дисульфидные связи
Пример взят из P10846(IHA-B1-2). Показывается номер аминокислотных остатков, участвующих в связи.

FT   DISULFID        20..41
FT                   /evidence="ECO:0000250"

Варианты последовательности
Пример взят из Q96CV9(Optineurin). Показывается номер замены, суть замены, иногда( как в приведенном примере) описываются последствия такой замены, и, конечно же, даётся ссылка на источники.

  FT   VARIANT         98
  FT                   /note="M -> K (polymorphism; may modify intraocular
  FT                   pressure and increase risk of GLC1E and NPG; induces TFRC
  FT                   degradation leading to autophagic death in retinal ganglion
  FT                   cells; dbSNP:rs11258194)"
  FT                   /evidence="ECO:0000269|PubMed:11834836,
  FT                   ECO:0000269|PubMed:14627677, ECO:0000269|PubMed:15498064,
  FT                   ECO:0000269|PubMed:15557444, ECO:0000269|PubMed:23357852"
  FT                   /id="VAR_021539"

История записи

Ради интереса было произведено сравнение между первой записью в Uniprot(датированной 1995-11-01) и актуальной на данный момент записью 165( последний раз изменена 2020-02-26)
Во-первых, значительно изменилась систематика обладателя этого белка, она стала более подробной. Для сравнения:

Версия 1: EUKARYOTA; METAZOA; CNIDARIA; HYDROZOA; HYDROIDA.
Версия 165: Eukaryota; Metazoa; Cnidaria; Hydrozoa; Hydroidolina; Leptothecata; Aequoreidae; Aequorea.

Во-вторых, структура белка теперь изучена намного более подробно( что неудивительно, это же GFP). Сейчас известны варианты последовательности, кодирующей белок, а также различные мутации, происходящие в нём.
В-третьих, в PDB теперь намного больше записей, показывающих структуру данного белка.
В-четвёртых, появилось гигантское количество статей про GFP за это время, что, опять же, неудивительно.