Геномное окружение. База данных GO

В первом семестре мне был выдан белок NP_228195.1 из генома Thermotoga maritima MSB8.

>NP_228195.1 Thermotoga maritima MSB8 anaerobic ribonucleoside triphosphate reductase
MKVQYSFEREFEELMSDLLSKYGYEMFQMDGLGDQLDVVKFTEDFVRRGIIESTIDANAN
VRVTNISTYFIEISKPHTYLYSLYRIWQKMKEMFGKGVADEFVEAQINGAVYLHDRHHAA
LMPYCFAYTLKPIVEKGLPFIKTIKSEPAKHLSTFIQHVIQFVMFASNQSSGAVGLPDFF
VWMWYFVKKDLKEGIIPRDKLDWYIEQHFQILTYSLNQPIRTTQSPYTNFTYLDRNYIKA
IFEGERYPDGSLITDHVEDIIALQKHYWEWVSRERERQMFTFPVLTASLLYKDGKFLDED
SARFINKINMKWQDTNWYISDSIDAVASCCRLTSSTQTLKKFSLSSEEEEKLKGRMNSIG
GSDLNIGSFKVITVNLPRIALESGGDREKYLQILRHRVQLIKKALAAVREIIKERISEGL
LPLYENGLMLLNRQYGTIGVTGVWESASIMGLTTEDIDGLKYTEEGEVFVDNVLDTIREE
AEKGYHEYGFTFNIEQVPAEKAAVTLAQKDRFLFGEKQPFEIYSNQWVPLMANTDVLNRI
RYSGKWDKKVSGGAILHINLGESFKTEEESFNMVKMIADMGVMYFAFNTKISVCEDGHAF
YGERCPVCGKAKVDEYMRIVGYLVPVSAFNKERREIEYPRRQFYDSLTIRR

Получение информации о КОГе, к которому относится белок

С помощью сервиса CDD (Conserved Domain Database) для данного белка был получен список хитов (Рис. 1), из которого нужно было выбрать те, которые относят белок к тому или иному КОГу.

Рис. 1. Список хитов для белка NP_228195.1

В списке оказался единственный хит относящий белок к какому-либо КОГу, информация о нем приведена в таблице 1.

Таблица 1. Информация о КОГе

ID COG1328
e-value для отнесения белка к данному КОГу 0e+00
Координаты 1-647
Название КОГа и функциональная категория Anaerobic ribonucleoside-triphosphate reductase [Nucleotide transport and metabolism]
Анаэробная рибонуклеозид-трифосфат редуктаза (транспорт и метаболиз нуклеотидов

Визуализация геномного окружения

Получили изображение геномного окружения для обнаруженного КОГа с помощью STRING

Рис. 2. Геномное окружение COG1328, программа STRING

Узлы графа символизируют белки. Если для даннго белка известна пространственная структура, то узел отображается более крупно, и внутри него расположена соответствующая 3D структура. Ребра отражают белок-белковые связи. Их цвета несут определенный смысл: фиолетовый означает экспериментально доказанные взаимосвязи, голубой — взаимосвязи, информация о которых получена из курируемых баз данных, зеленый обозначает соседство в геноме, синий — совместную встречаемость, красный — слияние генов. Салатовый означает совместное упоминание данных белков в Pub-Med Abstract, черный — коэкспрессию, а светло-синий — гомологию.

Рис. 3. Значения цветов ребер

Выдача сервиса включает таблицу со всеми взаимосвязями КОГа с остальными КОГами на графе, а также score данных взаимосвязей.

Рис. 4. Взаимосвязи COG1328 c другими КОГами

Также мы воспользовались сервисом COGNAT.

Выдача COGNAT в формате pdf.

COG1328 имеет консервативное геномное окружение, в которое входят COG1180 (Pyruvate-formate lyase-activating enzyme) и COG0602 (Organic radical activating enzyme). Согласно выдаче STRING, эти КОГи расположены рядом и вместе экспрессируются. Следует обратить внимание, что, согласно выдаче COGNAT, в геномах бактерий с COG1328 соседствует либо COG1180, либо COG0602, все три КОГа одновременно не встречаются.

Отнесение белка NP_228195.1 из генома Thermotoga maritima MSB8 к терминам GO

С помощью инструмента AmiGO поиком BLAST в базе данных GO нужно было найти белок, наиболее похожий на NP_228195.1

Наилучшей находкой был неохарактеризованный белок CPS_0092 из Colwellia psychrerythraea 34H , E-value находки 3.4e-58. Выравнивание представлено ниже. 28% идентичных позиций и 51% сходных позиций — приемлимое сходство.
>UNIPROTKB|Q48AQ3 [details] [associations]
            symbol:CPS_0092 "Putative uncharacterized protein"
            species:167879 "Colwellia psychrerythraea 34H" [GO:0003674
            "molecular_function" evidence=ND] [GO:0005575 "cellular_component"
            evidence=ND] [GO:0008150 "biological_process" evidence=ND]
            EMBL:CP000083 GenomeReviews:CP000083_GR eggNOG:COG1328 KO:K00527
            RefSeq:YP_266860.1 STRING:Q48AQ3 GeneID:3519225 KEGG:cps:CPS_0092
            PATRIC:21463603 HOGENOM:HOG000249497 OMA:IAYNYRI
            ProtClustDB:PRK08271 BioCyc:CPSY167879:GI48-195-MONOMER
            InterPro:IPR014192 TIGRFAMs:TIGR02827 Uniprot:Q48AQ3
        Length = 593

 Score = 369 (135.0 bits), Expect = 3.4e-58, Sum P(2) = 3.4e-58
 Identities = 100/349 (28%), Positives = 178/349 (51%)

Query:    53 STIDANANVRVTNISTYFIEISKPHTYLYSLYRIWQKMKEMFGKGVADEFVEAQINGAVY 112
             S +DANANV   NI+T   E+ K      +   +  K+++ F   +A E++    +  +Y
Sbjct:    29 SKMDANANVSHKNIATLEAELLKDCFVQINRALVHDKIRDTFDADLAKEYLRQIEDHEIY 88

Query:   113 LHDRHHAALMPYCFAYTLKPIVEKGLPFIKTIKSEPAKHLSTFIQHVIQFVMFASNQSSG 172
             +HD    +L PYC + ++ P +  GL  +   +S+  KHL +F    +  +   S Q +G
Sbjct:    89 VHDE--TSLKPYCTSISMYPFLLDGLTKLGG-ESKAPKHLESFCGSFVNLIFAISAQFAG 145

Query:   173 AVGLPDFFVWMWYFVKKDLKEGIIPRDKLDWYIEQHFQILTYSLNQPI--RTTQSPYTNF 230
             AV   +F  +  YF + +     +   K +  IE H Q + Y++NQP   R  QS + N 
Sbjct:   146 AVATVEFLTYFDYFARLEYGNDYLSTHKSE--IENHLQHVVYAINQPAAARGYQSVFWNI 203

Query:   231 TYLDRNYIKAIFEGERYPDGSLITDHVEDIIALQKHYWEWVSRERERQMFTFPVLTASLL 290
             +  D++Y  ++F    +PD S    + + +  LQ+ +  W+++ERE+ + TFPV+TA++L
Sbjct:   204 SLFDQHYFASMFGEFVFPDFS--KPNWQTVDQLQQFFLGWINKEREQAVLTFPVVTAAML 261

Query:   291 YKDGKFLDEDSARFINKINMKWQDTNWYISDSIDAVASCCRLTSSTQTXXXXXXXXXXXX 350
              ++G+  D D AR + +   +      Y+SDS D++ASCCRL +                
Sbjct:   262 TENGQCKDLDFARKLAQQKAEGNSFFIYLSDSADSLASCCRLRNEISDNTFSY------- 314

Query:   351 XXXGRMNSIGGSDLNIGSFKVITVNLPRIALESGGDREKYLQ-ILRHRV 398
                    ++G   +  GS  VITVN+ R+ ++ G D +  ++ I +++V
Sbjct:   315 -------TLGAGGVATGSINVITVNMNRL-VQDGRDLKTEIEKIQKYQV 355



Оказалось [1], что данный белок ассоциирован со слишком общими терминами: "биологический процесс", "компонент клетки", "молекулярная функция". Поэтому я взяла другую находку, с меньшим сходством.

Я взяла белок BA_3663 — анаэробную рибонуклеозид-трифосфат редуктазу из организма Bacillus anthracis str. Ames. E-value этой находки 8.2e-13, 25% идентичных позиций, 45% сходных. Выбранный белок выполняет ту же самую функцию, что и мой белок. Выравнивание приведено ниже.

>TIGR_CMR|BA_3663 [details] [associations]
            symbol:BA_3663 "anaerobic ribonucleoside-triphosphate
            reductase, putative" species:198094 "Bacillus anthracis str. Ames"
            [GO:0008998 "ribonucleoside-triphosphate reductase activity"
            evidence=ISS] [GO:0009265 "2'-deoxyribonucleotide biosynthetic
            process" evidence=ISS] InterPro:IPR012833 EMBL:AE016879
            EMBL:AE017334 EMBL:AE017225 GenomeReviews:AE016879_GR
            GenomeReviews:AE017225_GR GenomeReviews:AE017334_GR GO:GO:0006260
            KO:K00527 TIGRFAMs:TIGR02487 GO:GO:0008998 HOGENOM:HOG000222475
            RefSeq:NP_845927.1 RefSeq:YP_020298.1 RefSeq:YP_029654.1
            HSSP:P07071 ProteinModelPortal:Q81Y93 DNASU:1086039
            EnsemblBacteria:EBBACT00000010561 EnsemblBacteria:EBBACT00000017743
            EnsemblBacteria:EBBACT00000020912 GeneID:1086039 GeneID:2816693
            GeneID:2848849 KEGG:ban:BA_3663 KEGG:bar:GBAA_3663 KEGG:bat:BAS3398
            OMA:NNTRGEE ProtClustDB:PRK14704
            BioCyc:BANT260799:GJAJ-3459-MONOMER
            BioCyc:BANT261594:GJ7F-3569-MONOMER Uniprot:Q81Y93
        Length = 618

 Score = 211 (79.3 bits), Expect = 8.2e-13, Sum P(2) = 8.2e-13
 Identities = 78/308 (25%), Positives = 140/308 (45%)

Query:   356 MNSIGGSDLNIG--SFKVITVNLPRIALESGGDREKYLQILRHRVQL-IKKALAAVREII 412
             M++I G +  IG  +    ++NL ++AL SG  +E + + L + + L IK+ L       
Sbjct:   309 MSNIHGEETAIGRGNLSFTSINLVKLALISGS-KEAFYEALNYYLDLGIKQLLERFEYQC 367

Query:   413 KERISEGLLPLYENGLMLLNRQYGTI-GVTGVWESASI----MGLTT--EDIDGLKYTEE 465
              +R  +    LY  G+     +      V  + +  ++    +GL      + G  + E+
Sbjct:   368 TKRARDFRF-LYSQGVWRGGEKLQPEDSVASILKQGTLSLGFIGLAECLVALTGKHHGED 426

Query:   466 GEVFV--DNVLDTIREEAEKGYHEYGFTFNIEQVPAEKAAVTLAQKDRFLFGEKQPF--- 520
              E +     ++  +R+  +K   E+   F++   PAE  +    +KDR  FG        
Sbjct:   427 EESWKLGYEIISFMRDRMDKATEEHELNFSVIATPAEGLSGKFVKKDREEFGVISGITNH 486

Query:   521 EIYSNQW-VPLMANTDVLNRIRYSGKWDKKVSGGAILHINL-GESFKTEEESFNMVKMIA 578
               Y+N + +P+  N   +N+IR  G +    +GG I +I L G +   ++    +V+ +A
Sbjct:   487 NYYTNSFHIPVYYNMQAINKIRLEGPFHALCNGGHITYIELDGAAMHNKKALKQIVQAMA 546

Query:   579 DMGVMYFAFNTKISVCE--DGHAFYGERCPVCG---KAKVDEYMRIVGYLV-PVSAFNKE 632
             + GV Y + N  +  C+    H   G  CP CG   +A ++   RI GYLV  +S +N  
Sbjct:   547 EHGVGYGSINHPVDRCKCCSYHGVIGNECPSCGNEDEANIERIRRITGYLVGDMSKWNSA 606

Query:   633 RREIEYPR 640
             +R  E  R
Sbjct:   607 KRSEEMDR 614

 Score = 38 (18.4 bits), Expect = 8.2e-13, Sum P(2) = 8.2e-13
 Identities = 10/19 (52%), Positives = 13/19 (68%)

Query:   187 VKKDLKEGII-PRDKLDWY 204
             VKK + E I+ P D LD+Y
Sbjct:    63 VKKAINENILYPHD-LDFY 80

На странице найденного белка по ссылке N term associations была получена информация о терминах GO, отнесенных к данному белку. Их оказалось 2. Найденные термины представлены в таблице 2.

Таблица 2. Термины GO, отнесенные к белку с идентификатором BA_3663

Аспект Идентификатор GO Название термина Перевод названия термина Код типа достоверности
Биологический процесс (Biological process) GO:0009265 2'-deoxyribonucleotide biosynthetic Биосинтез 2'-дезоксирибонуклеотидов ISS
Молекулярная функция (Molecular function) GO:0008998 ribonucleoside-triphosphate reductase рибонуклеозид-трифосфат редуктаза ISS

Для обоих терминов GO код типа доставерности ISS. Информация о данном коде представлена в таблице 3.

Таблица 3. Описание кодов достоверности, использованных в Таблице 2.

Код типа достоверности Расшифровка кода типа достоверности Объяснение
ISS Inferred from Sequence or Structural Similarity
(Основан на сходстве последовательностей или структурном сходстве)
Используется, когда аннотация проводилась на основании анализа последовательностей, причем данный анализ был проверен вручную.