Работа в Uniprot


Информация о белке

Данный практикум направлен на знакомство с базой данных Uniprot. В качестве объекта использовался тот же белок, для которого ранее создавался атлас контактов. Общая информация о нём представлена в таблице:

раздел UniProtKB Swiss-Prot
UniProt ID TTHY_HUMAN
UniProt AC P02766; Q549C7; Q6IB96; Q9UBZ6; Q9UCM9
Длина 147
Молекулярная масса 15887
Рекомендуемое UniProt название Transthyretin
EMBL AC нуклеотидной записи K02091; M10605; M11518; M11844; X59498; D00096; M15517; M15515; M15516; U19780; AF162690; AK312051; BT007189; CR456908; CH471088; BC005310; BC020791; S63185; S72385; M11714; M63285
PDB ID 1BM7; 1BMZ; 1BZ8; 1BZD; 1BZE; 1DVQ; 1DVS; 1DVT; 1DVU; 1DVX; 1DVY; 1DVZ; 1E3F; 1E4H; 1E5A; 1ETA; 1ETB; 1F41; 1F64; 1F86; 1FH2; 1FHN; 1G1O; 1GKO; 1ICT; 1III; 1IIK; 1IJN; 1QAB; 1QWH; 1RLB; 1SOK; 1SOQ; 1THA; 1THC; 1TLM; 1TSH; 1TT6; 1TTA; 1TTB; 1TTC; 1TTR; 1TYR; 1TZ8; 1U21; 1X7S; 1X7T; 1Y1D; 1Z7J; 1ZCR; 1ZD6; 2B14; 2B15; 2B16; 2B77; 2B9A; 2F7I; 2F8I; 2FBR; 2FLM; 2G3X; 2G3Z; 2G4E; 2G4G; 2G5U; 2G9K; 2GAB; 2H4E; 2M5N; 2NBO; 2NBP; 2NOY; 2PAB; 2QEL; 2QGB; 2QGC; 2QGD; 2QGE; 2ROX; 2ROY; 2TRH; 2TRY; 2WQA; 3A4D; 3A4E; 3A4F; 3B56; 3BSZ; 3BT0; 3CBR; 3CFM; 3CFN; 3CFQ; 3CFT; 3CN0; 3CN1; 3CN2; 3CN3; 3CN4; 3CXF; 3D2T; 3D7P; 3DGD; 3DID; 3DJR; 3DJS; 3DJT; 3DJZ; 3DK0; 3DK2; 3DO4; 3ESN; 3ESO; 3ESP; 3FC8; 3FCB; 3GLZ; 3GPS; 3GRB; 3GRG; 3GS0; 3GS4; 3GS7; 3HJ0; 3I9A; 3I9I; 3I9P; 3IMR; 3IMS; 3IMT; 3IMU; 3IMV; 3IMW; 3IPB; 3IPE; 3KGS; 3KGT; 3KGU; 3M1O; 3NEE; 3NEO; 3NES; 3NEX; 3NG5; 3OZK; 3OZL; 3P3R; 3P3S; 3P3T; 3P3U; 3SSG; 3TCT; 3TFB; 3U2I; 3U2J; 3W3B; 4ABQ; 4ABU; 4ABV; 4ABW; 4AC2; 4AC4; 4ACT; 4ANK; 4D7B; 4DER; 4DES; 4DET; 4DEU; 4DEW; 4FI6; 4FI7; 4FI8; 4HIQ; 4HIS; 4HJS; 4HJT; 4HJU; 4I85; 4I87; 4I89; 4IIZ; 4IK6; 4IK7; 4IKI; 4IKJ; 4IKK; 4IKL; 4KY2; 4L1S; 4L1T; 4MAS; 4MRB; 4MRC; 4N85; 4N86; 4N87; 4PM1; 4PME; 4PMF; 4PVL; 4PVM; 4PVN; 4PWE; 4PWF; 4PWG; 4PWH; 4PWI; 4PWJ; 4PWK; 4QRF; 4QXV; 4QYA; 4TKW; 4TL4; 4TL5; 4TLK; 4TLS; 4TLT; 4TLU; 4TM9; 4TNE; 4TNF; 4TNG; 4TQ8; 4TQH; 4TQI; 4TQP; 4WNJ; 4WNS; 4WO0; 4Y9B; 4Y9C; 4Y9E; 4Y9F; 4Y9G; 4YDM; 4YDN; 5A6I; 5AKS; 5AKT; 5AKV; 5AL0; 5AL8; 5AYT; 5BOJ; 5CLX; 5CLY; 5CLZ; 5CM1; 5CN3; 5CNH; 5CR1; 5DEJ; 5DWP; 5E23; 5E4A; 5E4O; 5EN3; 5EZP; 5FO2; 5FW6; 5FW7; 5FW8; 5H0V; 5H0W; 5H0X; 5H0Y; 5H0Z; 5HJG; 5IHH; 5JID; 5JIM; 5JIQ; 5K1J; 5K1N; 5L4F; 5L4I; 5L4J; 5L4M; 5LLL; 5LLV; 5N5Q; 5N62; 5N7C; 5NFE; 5NFW; 5OQ0; 5TTR; 5TZL; 5U48; 5U49; 5U4A; 5U4B; 5U4C; 5U4D; 5U4E; 5U4F; 5U4G; 6D0W; 6E6Z; 6E70; 6E71; 6E72; 6E73; 6E74; 6E75; 6E76; 6E77; 6E78; 6EP1; 6FFT; 6FWD; 6FXU; 6FZL; 6GR7; 6GRP; 6IMX; 6IMY; 6R66; 6R67; 6R68; 6R6I; 6SDZ

Поскольку нарушения в данном белке приводят к различным заболеваниям, он активно исследуется, это объясняет его широкую представленность в других базах данных.

В PDB он представлен глобулярной формой: при разных pH, в комплексе с различными лигандами, с различными модификациями аминокислот, локальными вариантами и мутантными формами, а кроме того амилоидной формой.

Поскольку белок существует в виде димера димеров, структуры обычно содержат две или четыре цепи, за исключением, с очевидностью, амилоидной формы, она представлена сразу многими цепями.

Кластеры

Для данного белка были найдены кластеры с различным уровнем сходства последовательности посредством баз UniRef.

При этом полное совпадение последовательности белка наблюдается только на уровне организма (Homo Sapiens), 90% на уровне отряда (приматы), 50% на уровне класса (млекопитающие).

Cluster ID Cluster name Size
UniRef100_P02766 Cluster: Transthyretin (100%) 14
UniRef90_P02766 Cluster: Transthyretin (90%) 36
UniRef90_P02766 Cluster: Transthyretin (50%) 182

Сеансы поиска

Для знакомства с инструментом поиска по базе, было составлено (по заданному текстовому описанию) несколько запросов, которые можно видеть в таблице. Для каждого запроса приведено количество найденных белков: всего и среди рецензированных.

запрос белков reviewed
name:transthyretin 1 612 44
name:transthyretin AND organism:"Homo sapiens (Human) [9606]" 10 1
name:transthyretin taxonomy:"Hominidae (great apes) [9604]" 20 3
name:transthyretin taxonomy:"Chordata [7711]" 399 25
name:homeobox 100 882 1 398
name:homeobox taxonomy:"Arthropoda [6656]" 9 154 57
name:homeobox taxonomy:"Ciliophora [5878]" 96 0
name:trypsin 29 530 320
name:trypsin NOT name:inhibitor 24 569 104

Для фильтров по организму и таксономии использовались автоматические подсказки, предлагаемые строкой поиска. Однако их игнорирование, т.е. запросы вида taxonomy:hominidae вместо taxonomy:"Hominidae (great apes) [9604]" во всех данных случаях приводит к тому же результату, поскольку данные названия не встречаются в составе других. Исключением язвляется запроса organism:human, который помимо собственно человеческих белков выдаёт также белки нематоды Necator americanus (Human hookworm) и белки метагенома человеческой микрофлоры (human gut metagenome), поэтому с ним следует быть внимательным.

Feature Table: синтаксис

Поля FT содержат локальные особенности последовательности. Их формат подразумевает, что сначала идёт строка с типом и локализацией особенности, а за ней следуют дополнилеьные строки с дополнительной информацией: /id= – идентификатор особенности, /evidence= – ссылка на источник информации, /note= – другая информация

Ниже для некоторых особенностей последовательности приведены примеры их записи (без полей evidence и id):

  • Нестандартные аминокислотные остатки
  • FT NON_STD 52
    FT /note="Selenocysteine"
  • Модификация аминокислот
  • FT MOD_RES 131
    FT /note="N-linked (GlcNAc...) asparagine"
  • Дисульфидные мостики
  • FT DISULFID 29..351
  • Альтернативный сплайсинг
  • FT VAR_SEQ 653..672
    FT /note="VATSNPGKCLSFTNSTFTFT -> ALVSHHCPVEAVRAVHPTRL (in
    FT isoform 2)"
  • Вариативность (один автор утверждает существование разных вариантов)
  • FT VARIANT 214
    FT /note="V -> I (in dbSNP:rs111642750)"
  • Противоречивая информация (в разных источниках указано по-разному)
  • FT CONFLICT 728
    FT /note="Missing (in Ref. 4; AAH40259 and 5; AAL15446)"