Наружу


Назад

Геномное окружение. База данных GO.





Получение информации о КОГе, к которому относится мой белок.

Мой белок - формат-тетрагидрофоллат лигаза ALX07041.1. Она имеет COG ID: COG2759. Точность отнесения велика, так как E-value составляет 0e+00. COG обнаруживается в интервале от 3 до 556 аминокислоты. Всего в белке 556 аминокислот. COG относится к категории F - Nucleotide transport and metabolism и называется Formyltetrahydrofolate synthetase. Категория в переводе - Нуклеотидный транспорт и метаболизм. Название - Формилтетрагидрофолат синтаза.

Визуализация геномного окружения.

Было получено изображение геномного окружения COG при параметрах Neighborhood Size = 9, Occurrence Threshold (%) = 20. Зелёным цветом на рисунке обозначен наш вожделенный COG 2759. Серым - другие случайные COG, которые были найдены в качестве соседей в различных организмах. Как мы можем видеть, геномное окружение моего белка крайне неконсервативно.

Рис.1: Геномное окружение COG2759.

Отнесение формат-тетрагидрофоллат лигазы из Ruminiclostridium thermocellum AD2 к терминам GO

Найденный в GO белок отличен от оригинального. Организм Carboxydothermus hydrogenoformans, которому он принадлежит, сходен с моим на всех уровнях таксономии выше порядка. P-Value находки равняется 4.1e-200. Видно, что белки обладают большими сходными участками, что говорит о их сходстве по структуре, доменной организации и сходстве функций.

>TIGR_CMR|CHY_2385 [details] [associations]
            symbol:CHY_2385 "formate--tetrahydrofolate ligase"
            species:246194 "Carboxydothermus hydrogenoformans Z-2901"
            [GO:0000105 "histidine biosynthetic process" evidence=ISS]
            [GO:0004329 "formate-tetrahydrofolate ligase activity"
            evidence=ISS] [GO:0009086 "methionine biosynthetic process"
            evidence=ISS] [GO:0009113 "purine nucleobase biosynthetic process"
            evidence=ISS] [GO:0009257 "10-formyltetrahydrofolate biosynthetic
            process" evidence=ISS] [GO:0015940 "pantothenate biosynthetic
            process" evidence=ISS] UniPathway:UPA00193 HAMAP:MF_01543
            InterPro:IPR000559 InterPro:IPR020628 Pfam:PF01268 PROSITE:PS00721
            PROSITE:PS00722 GO:GO:0005524 EMBL:CP000141
            GenomeReviews:CP000141_GR GO:GO:0004329 GO:GO:0009396 GO:GO:0035999
            HOGENOM:HOG000040280 eggNOG:COG2759 KO:K01938 OMA:EIMAVLC
            ProtClustDB:PRK13505 RefSeq:YP_361182.1 ProteinModelPortal:Q3A9K2
            SMR:Q3A9K2 STRING:Q3A9K2 GeneID:3728149 KEGG:chy:CHY_2385
            PATRIC:21277833 BioCyc:CHYD246194:GJCN-2384-MONOMER Uniprot:Q3A9K2
        Length = 556

 Score = 1937 (686.9 bits), Expect = 4.1e-200, P = 4.1e-200
 Identities = 366/556 (65%), Positives = 445/556 (80%)

Query:     1 MLTDIQIAQSCKMKPITQVAAELGIDEEELELYGKYKAKLSDKLWERVKDRPDGKLVLVT 60
             M +DI+IAQ  K++PI ++A +LG+ E+++ELYGKYKAK++  +W+R+KDRPDGKL+LVT
Sbjct:     1 MKSDIEIAQEAKLEPIVKIAEKLGLTEDDIELYGKYKAKIAAHVWDRIKDRPDGKLILVT 60

Query:    61 AINPTPAGEGKTTTTVGLGQAMARIGKKAVIALREPSLGPVMGIKXXXXXXXYSQVVPME 120
             AINPTPAGEGKTTTTVGLG A++R+GKK VIALREPSLGP  G+K       Y+QVVPME
Sbjct:    61 AINPTPAGEGKTTTTVGLGDALSRLGKKTVIALREPSLGPSFGVKGGAAGGGYAQVVPME 120

Query:   121 DINLHFTGDMHAITAANNLLSAAIDNHIQQGNELNIDVRQIIWKRAMDMNDRALRNIVVG 180
             DINLHFTGD+HAIT A+NLL+A IDNHI QGNEL ID R+++W+R +D+NDRALR +V+G
Sbjct:   121 DINLHFTGDLHAITTAHNLLAAMIDNHIHQGNELGIDPRRVVWRRVVDLNDRALRKVVIG 180

Query:   181 LGGKANGVPREDGFQITVASEVMAVLCLSTGLMDLKERLGRILIGYTYDGKPVFAKDLKV 240
             LGG A GVPRE GF ITVASE+MA+LCL++ LMDLKER  RILIGYTYD KPV+A+DLK 
Sbjct:   181 LGGPAQGVPRETGFDITVASEIMAILCLASDLMDLKERFNRILIGYTYDQKPVYARDLKA 240

Query:   241 NGAMALLLKDAIKPNLVQTLENTPAIVHGGPFANIAHGCNSIVATRLGLKLADYCITEAG 300
              GAM +L+KDAIKPNLVQTLE+TPA VHGGPFANIAHG NSI+A ++ LKLADY +TEAG
Sbjct:   241 AGAMTVLMKDAIKPNLVQTLEHTPAFVHGGPFANIAHGTNSILADKIALKLADYLVTEAG 300

Query:   301 FGADLGAEKFFNIKCRYAGLKPDLVVLVATIRALKYNGGVKKENLGIENLPALEKGFVNL 360
             FGADLGAEKFFN+ CR+AG KP  VV+VAT+RALKYNGGV +  L  ENL ALEKGF NL
Sbjct:   301 FGADLGAEKFFNVVCRFAGFKPSAVVIVATVRALKYNGGVPRAELNKENLEALEKGFANL 360

Query:   361 EKHIENIRKFQVPLLVAINHFDTDSEAEIEYVKNRCKALNVEVAFSDVFSKGSEGGIELA 420
             EKHIENI KF +P +VAIN F TD++AE+  ++   +A   E A S+V++KG EGGIELA
Sbjct:   361 EKHIENIGKFGLPAVVAINRFPTDTDAELNKLRELIEATGAEFALSEVWAKGGEGGIELA 420

Query:   421 EKVVKLTETQKSNFKPLYDVNLSXXXXXXXXXXXXYGADSVNILPAAERAIKKIEELKMD 480
             +KV+K+ E + +NF+ LYD+ +             YGAD V     AE+ + K EE+   
Sbjct:   421 QKVLKVIEEKPANFRYLYDLEMPIKQKIETIAREIYGADGVVFTADAEKTLAKFEEMGFG 480

Query:   481 KLPICVAKTQYSLSDDPTLLGRPQGFVITVREIKLSSGAGFIVAITGDIMTMPGLPKVPA 540
              +P+ +AKTQYSLSDDP  LGRP GF ITVRE++ S GAGFIVAITGDIMTMPGLPK PA
Sbjct:   481 NMPVIMAKTQYSLSDDPNKLGRPTGFNITVRELRASVGAGFIVAITGDIMTMPGLPKRPA 540

Query:   541 AEKIDIDENGVITGLF 556
             AE IDID +G ITGLF
Sbjct:   541 AEVIDIDADGKITGLF 556

Информация о найденном белке представленна в виде двух таблиц. Таблица в оригинальном виде приведена здесь. Ниже приведен перевод части таблицы для упрощения понимания (Таб.1).

Все термины, отнесённые к белку, имеют достоверность типа ISS. Достоверность типа ISS (Inferred from Sequence or structural Similarity) может также использоваться для структурного сходства с экспериментально охарактеризованными продуктами генов, определяемыми кристаллографией, ядерным магнитным резонансом или вычислительным прогнозированием.

Термин (перевод) Аспект GO ID Код типа достоверности
Процесс биосинтеза10-формилтетрагидрофолата Биологический процесс GO:0009257 ISS
Процесс биосинтезагистидина Биологический процесс GO:0000105 ISS
Процесс биосинтеза метионина Биологический процесс go:0009086 ISS
Процесс биосинтеза пантотената Биологический процесс GO:0015940 ISS
Процесс биосинтеза пуриновых нуклеотидов Биологический процесс GO:0009113 ISS
Формиат-тетрагидрофолатная лигаза Молекулярная функция GO:0004329 ISS

© Попов Алексей, 2016 г.