Геномное окружение. База данных GO


Получение информации о КОГе, к которому относится мой белок

В первом семестре мне дали для изучения белок WP_014147797.1 . Задача - определить к какому КОГу относится мой белок.

На странице CDD я вставил свою белковую последовательность в fasta формате. Среди найденых хитов, я нашел один, относящий мой белок к одному КОГу.

Таблица 1. Характеристики обнаруженного КОГа (STE14)

Идентификатор КОГаCOG2020
E-value для отнесения моего белка к данному КОГу4.03e-05
Интервал обнаружения КОГа в моем белке231-427
Название КОГа (en)Protein-S-isoprenylcysteine O-methyltransferase Ste14
Название КОГа (рус)Протеин-С-изопренилоцистеин О-метилтрансфераза Ste14
Функциональные категории (en)Posttranslational modification, protein turnover, chaperones
Функциональные категории (рус)Посттрансляционные модификации, сборка белков, шапероны

Визуализация геномного окружения

рис.1 Граф всех взаимодействий COG2020

рис.2 Значения цветов ребер графа

На Рис.1 изображен граф, каждая вершина которого - совокупность белков (форм белка), транскрибируемых с одного гена (КОГ). Размер узла отражает наличие (большой) иили отсутствие (маленький) 3D структуры белка в базе данных, она может быть или известной точно, или предсказанной. Цвет ребер также имеет смысл (Рис. 2)Розовые ребра отражают экспериментально доказанные взаимосвязи, голубые - взаимосвязи, информация о которых получена из курируемых баз данных. Ярко-зеленые ребра говорят о соседстве в геноме, красные - слияние генов, синие - совместную встречаемость. Светло-зеленые ребра означают совместное упоминание данных белков в Pub-Med, черные - коэкспрессию, а светло-синие - гомологию.

Из Рис.2 следует, что с моим КОГом не представлены только fusion взаимодействия (слияние генов). Это так же следует из Рис.3:

рис.3 Тот же граф, но в таблице

Отнесение белка дельта(14)-стерол редуктазы бактерии Methylomicrobium alcaliphilum 20Z к терминам GO

С помощью инструмента AmiGO поиском BLAST я обнаружил в БД GO белок, который наиболее похож на мой. Им оказалась дельта(14)-стерол редуктаза (ID=Q54PP1.1) организма Dictyostelium discoideum, т.е. эукариота. E-value 1.8e-96.

 Score = 959 (342.6 bits), Expect = 1.8e-96, P = 1.8e-96
 Identities = 200/441 (45%), Positives = 275/441 (62%)

Query:     1 MSEQESRDNAAVDAVRQKYGFG--FSWLVLMIALPPLVYYLWICVTYYQGELVF--TSDA 56
             ++E + ++ A +  V     FG      +L   LP +VY++W  + +  G L+   T   
Sbjct:    20 LTEVQKKELADLQKVHPANEFGGIIGTFLLTFILPVVVYWIWASIEFNNGYLLRPETLSV 79

Query:    57 AAWRRFWSHV-------APPTWHAAGLYAAWFLGQAALQVWAPGPTVQGMKLPDGSRLDY 109
                + F + +       A PT  AA +Y +WF  QA LQ   PG  V G  LP G+RL+Y
Sbjct:    80 EGVKAFLAQLYHYVITYAYPTKEAAIIYFSWFGFQAFLQHVVPGRKVLGSPLPGGARLEY 139

Query:   110 RMNGIFSFLFTLAVVFGLVTMGWLDATVLYDQLGPLLTVVNIFTFVFAGFLYFWG-LNGK 168
              +NG  S+  TL V+   +  G   AT+L D   P++TVVNI++FVF   L     L G+
Sbjct:   140 TLNGWASWWITLIVIPIAIYFGLFKATILIDNYAPMMTVVNIWSFVFTFLLKIHAKLKGE 199

Query:   169 QWERPTGRPFYDYFMGTALNPRIGSLDLKLFCEARPGMIFWLLMNLSMAAKQYELHGTVT 228
             + ER +G  FYD++MG A NPRIGS DLKLFCEARPG+I W+LMN S+AAKQ E++G ++
Sbjct:   200 E-ERMSGHFFYDFWMGFARNPRIGSFDLKLFCEARPGLILWVLMNFSIAAKQLEVYGEIS 258

Query:   229 VPMLLVVGFQSFYLIDYFIHEEAVLTTWDIKHEKFGWMLCWGDLVWLPFTYTLQAQYLVH 288
             + ++LV  F  +Y+ DY+ HEEA+LTT DI  EKFG+ML +GDL W+PFTY  Q  YL  
Sbjct:   259 LSVILVCCFHFWYIADYYYHEEAILTTMDIITEKFGYMLVYGDLSWVPFTYCFQCYYLYK 318

Query:   289 H-THDLPVW---GI-IAIVALNLAGYAIFRGANIQKHHFRRDPNRIVWGKPAKYIKTKQG 343
             H  +  P+    G  I +V+L   G+ +FR  N QKH FRR+P   VWGKPA++I TK+G
Sbjct:   319 HLVNGAPLHISIGYAIFVVSLKCFGFYLFRWVNSQKHDFRRNPEAPVWGKPAEFILTKRG 378

Query:   344 SLLLTSGWWGIARHMNYFGDLMIALSWCLPAAFGSPIPYFHIVYFTILLLHREKRDDAMC 403
             + LL SG+WGI RH+NY GD++++ +WCLP  F S  PYF+ +YFT L LHR  RD   C
Sbjct:   379 TKLLCSGFWGICRHLNYTGDIILSWAWCLPCQFDSLAPYFYGIYFTSLDLHRCWRDHNAC 438

Query:   404 LAKYGEDWLQYRKKVPWRIVP 424
             L KYG+DW  Y K+VP+  +P
Sbjct:   439 LVKYGDDWRAYCKRVPYNFIP 459

рис.4 Выравнивание белка WP_014147797 и Q54PP1

Из рисунка 4 видно что белки похожи, и скорее всего являются ортологами. Однако, в следствии различия эукариотической и прокариотической клеток, последовательности начинаются с разных мест (у эукариота в начале вне выравнивания еще 19 аминокислот). Это можно объяснить, например, наличием сигнальной последовательности в начале, обеспечивающую интаракцию с другими белками, и, возможно, локализацию в определенном участке.

Благодаря низком e-value, я решил посмотреть на ассоциации (которые можно увидеть, нажав на "view associations" а таблице вывода blast), которые приведены в таблице 2.

Таблица 2. таблица ассоциаций (в выводе бласта -> associations)

АспектИдентификатор GOНазвание терминаКод типа достоверности
biological process (биологический процесс) GO:0006629 lipid metabolic process IEA
biological process (биологический процесс) GO:0055114 oxidation-reduction process IEA
biological process (биологический процесс) GO:0006694 steroid biosynthetic process IEA
biological process (биологический процесс) GO:0008202 steroid metabolic process IEA
biological process (биологический процесс) GO:0016126 sterol biosynthetic process IBA
cellular component GO:0005575 cellular_component ND
cellular component GO:0030176 integral component of endoplasmic reticulum membrane IBA
cellular component GO:0016021 integral component of membrane IEA
cellular component GO:0016020 membrane IEA
molecular function GO:0050613 delta14-sterol reductase activity IEA
molecular function GO:0003674 molecular_function ND
molecular function GO:0050661 NADP binding ISS
molecular function GO:0016491 oxidoreductase activity IEA
molecular function GO:0016627 oxidoreductase activity, acting on the CH-CH group of donors IBA

Объяснения встречающихся в Таблице 2 кодов достоверности представлены в таблице 3.

Таблица 3. Коды достоверности

Код типа достоверностиРасшифровка кода типа достоверностиОбъяснение
ISSInferred from Sequence or structural Similarity Это код достоверности хороший и, как видно из названия кода, строит связи (т.е., например, относит найденный мной белок к какому-либо из терминов) на основе последовательностей. В ISS входят еще 3 типа: inferred from Sequence Orthology (ISO), inferred from Sequence Alignment (ISA), inferred from Sequence Model (ISM).
IEAInferred from Electronic AnnotationДанный код присваивается автоматизированными методами, без пересмотра куратором на основе совпадений в похожих последовательностях, из записей баз данных.
IBAInferred from Biological aspect of Ancestor Присваивается на основе терминов, относящихся к гену, с которого произошла транскрипция
NDNo Biological Data AvailableНет источника, на который можно сослаться

на главную

© Гавриш Глеб 2017