Геномное окружение. База данных GO






Следите за обновлениями и дополнениями
Если Вы заметили опечатки, или ссылка испортилась, пожалуйста, напишите мне





Получение информации о КОГе, к которому относится мой белок



В данной работе будет использоваться база данных доменов Conserved Domains [1]. Для выполнения практикума был использован мой белок из первого семейств - сиалидазаа. Ниже представлена последовательность сиалидазы в фаста формате, использованная для поиска в базе данных.


>AJG99379.1 sialidase

MIRRNKRILSLTLSMAVFTTMFMSTSFITKAETVSLGANSEITSNASTESTAVATNIA

LNKPSTASSVTGGNTASLAVDGNAGTRWESAQGSDPQWISIDLGGSYNISGVKLNWET

AAAKDYKIQVSTDNKNWIDAYTKTGGTGGVENIAFNSTATGRYIRMLGTTRTTQYGYS

LWEFEVYGIPDGNTVNNVDLGPNVKIFDPSMPSSDIQNTVDSVFSKMETNQFGNERYA

FLFKPGSYNVNVNVGFFTSVLGLGKTPDAVNITGAVRCEADWMGGNATCNFWRSVENV

AVTPTYSSNNLAPAGTLTWAVSQAAPMRRVHIKGGLSLWDPLGTNYDGAWSSGGFIAD

SKIDNSITSGSQQQFFTRNSQMGSWNGANWNMVFVGNNGAPTDDNAYPSTPDTVVSQT

PAIREKPFLYIDDSGNYQVFIPDLRKNSQGITWTNGLGQGTSLSIDQFYIAKPDTSTA

ESINAALSQGKNIIFTPGVYHLSDAINVTKSNTVILGLGLATLIPDNGTAAMNISDVD

GVKVSGVLFDAGAKNSPVLLKVGQDGSSADHSANPTSLSDLFFRIGGAAVGNADTSLK

INSNNVIGDDFWVWRADHGTGVGWTVNNAKNGVIVNGNNVTLYGLFVEHFKEYQTIWN

GNGGKVYFYQSELPYDVPNQASWMSNNGTQNGYASYKVADSVTSHQLFGSGIYSYFRD

SVVSENNGIEVPNASGVKVHHACSVYLSGNGEITHVVNNTGNTAKSGDMKQSVTDYPN

S 



Был найден домен FA58C (Coagulation factor 5/8 C-terminal domain), имеющий идентификатор cd00057. Данный домен был найден в интервале 64-182 остатков белка и имел p-value 7.38e-15, что говорит о высокой достоверности находки. Вего в белке 755 остатков аминокислот.

По структурным особенностям данный домен относят к 1EUU; galactose binding domain (potentially binds different sugars in other proteins)

Так как в белке не нашлось КОГов был выбран другой белок выбывшего однокурсника - пируват ацетил коА синтаза (putative acyl-CoA synthetase) с идентификатором BAC69532.1.




>BAC69532.1 putative acyl-CoA synthetase (NDP forming type) [Streptomyces avermitilis MA-4680 = NBRC 14893]

MMAEDRALRVRTLLDTVRAEGRTALTAPEGKVIADAYGIAVPGEELATDVDEAVAYAARFGGPVVMKIVS

PDILHKTDAGGVIVGVEGAADVRAAFCRIVENARAYNERARIEGVQVQELLPRGQEVIVGAVTDPTFGKV

VAFGLGGVLVEVFKDVTFRLAPVDADEALSMLDSIRSTEILRGVRGAAAVDRWAIAEQIRRVSRLVTDFP

EIAEVDLNPVVATPEGAVAADIRVILAESQPKPRRTYTREEILTSMRRLMQPSSVAVIGASNEHGKIGNS

VMRNLIDGGFSGEIHPVNPKADDIVGRKAYKSVTDIPGEVDVALFAIPATFVAAALEEVGRKGIPNAVLI

PSGFAETGEHELQDEVVAIAERHGVRLLGPNIYGYYSTWHDLCATFCTPYDVKGGVALTSQSGGIGMAIL

GFARTTKTGVSAIVGLGNKSDLDEDDLLTWFGEDPHTECIAMHLEDLKDGRAFVAAARATVPRKPVVVLK

AGRTAAGAKAAGSHTGALAGDDAVYDDILKQAGVIRAPGLNDMLEYARALPVLPTPQGDNVVIITGAGGS

GVLLSDAVTDNGLSLMEIPPDLDASFRTFIPPFGAAGNPVDITGGEPPSTYEATIRLGLEDPRVHALVLG

YWHTIVTPPMVFAELTARVVAEFRERGIEKPVVASLAGDVEVEEACQYLYERGVVAYPYTTEKPVAVLGA

KYRWARAAGLLGGGS



Рисунок 1. Доменная архитектура ацетил коА синтазы


Был найден домен КОГ, имеющий идентификатор COG1042. Данный КОГ имеет статус ACCS, with user query added.
Он расположен в интервале 52-528 остатков белка и имеет p-value 1.41e-20, что говорит о высокой достоверности находки.
Вего в белке 715 остатков аминокислот.

Данный КОГ относят к Acyl-CoA synthetase (NDP forming)
Функциональная категория КОГа - Генерация и накопление энергии (Energy production and conversion).
Его можно встрертить во множестве организмов



Визуализация геномного окружения

Было найдено геномное окружение КОГа в сервисе cognat. На рисунке 2 приведён пример выдачи сервиса. В правой верхней трети расным показан исследуемый белок, а серым - его геномное окружение для каждого аннотированного организма. Серым показаны белки окружения.

Использовались параметры:
Neighborhood Size - 9
Occurrence Threshold (%) - 20
Taxonomy - Нет



Рисунок 2. Геномное окружение ацетил коА синтазы


Таблица 1. Некоторые примеры геномного окружения ацетил коА синтазы
NameCOG E-Value
Alpha/beta hydrolase fold proteinCOG0596 3.5e-36
Transcriptional regulatorCOG14146e-46
Protein with phosphotransacetylase BioD-like N-terminal domainCOG0857 1.6e-121


Геномное окружение не является консервативным. Наблюдается вариабельность в присутствующих КОГах.

Отнесение ацетил коА синтазы к терминам GO

С помощью инструмента AmiGO поиком BLAST в базе данных GO был обнаружен белок, наиболее похожий на ацетил коА синтазу. Им оказалась суксицил коА лигаза (Succinyl CoA ligase, putative), имеющая идентификатор PF14_0357 и P value, равный 2.0e-47. Найденный белок был обнаружен у Plasmodium falciparum 3D7, относящегося к другому домену - Эукариотам, тогда как мой новый организм (Streptomyces avermitilis MA-4680 = NBRC 14893) относится к Бактериям.

Лучшей находкой являлась ацетил коА синтаза Carboxydothermus hydrogenoformans Z-2901 с идентификатором CHY_0264 и P value 3.5e-59.


 Score = 607 (218.7 bits), Expect = 3.5e-59, P = 3.5e-59

 Identities = 150/459 (32%), Positives = 226/459 (49%)



Query:   250 EEILTSMRRLMQPSSVAVIGASNEHGKIGNSVMRNLIDGGFSGEIHPVNPKADDIVGRKA 309

             E+    + +L+ P S+AVIGAS +  K+GN+++RN++ G + GE+  VNP+   I   + 

Sbjct:    10 EKFKERVAKLLNPRSIAVIGASEKPEKLGNAILRNIVSG-YKGEVFGVNPRVKKIQEIEV 68



Query:   310 YKSVTDIPGEVDVALFAIPATFVAAALEEVGRKGIPNAVLIPSGFAETGEHE--LQDEVV 367

             Y  V  +P  VD+A+  +PA     AL+E    G+ +AV+I  GF ETG     L++E+ 

Sbjct:    69 YPDVFSLPYPVDLAVIVLPAEKAVVALKEAAEAGVKSAVVISGGFKETGNEGALLEEEIK 128



Query:   368 AIAERHGVRLLGPNIYGYYSTWHDLCATFCTPYDVKGGVALTSQSGGIGMAILGFARTTK 427

              IA    + +LGPN  G  +    L ATF     +KG +A  SQSG I   +L ++    

Sbjct:   129 KIALDFEMPVLGPNCVGIVNNNLQLNATFLRTAPLKGEIAFVSQSGAILSTVLEWSLKED 188



Query:   428 TGVSAIVGLGNKSDLDEDDLLTWFGEDPHTECIAMHLEDLKDGRAFVAAARATVPRKPVV 487

              G S ++ +GNK+ L+E D L     DP T  I +++ED+ +G +F+  A      KPVV

Sbjct:   189 LGFSYMISMGNKAVLNEADFLPAIANDPGTAVILLYIEDVVEGSSFLKKAYEASLLKPVV 248



Query:   488 VLXXXXXXXXXXXXXXXXXXLAGDDAVYDDILKQAGVIRAPGLNDMLEYARALPVLPTPQ 547

             V                   LAG    Y     + G+IRA  L +M  YAR         

Sbjct:   249 VFKAGISTAGAKAASSHTGALAGSIEGYKLAFAKTGLIRAKTLEEMFIYARVFASGQKVT 308



Query:   548 GDNVVIITGAGGSGVLLSDAVTDNGLSLMEIPPDLDASFRTFIPPFGAAGNPVDITGGEP 607

             G N+ I+T +GG GV+ +D +  NGL++  +        +TF+P   + GNPVDI G   

Sbjct:   309 GKNIGIVTNSGGPGVITADRLELNGLNITGLSAKTINELKTFLPRAASFGNPVDILGDAD 368



Query:   608 PSTYEATIRLGLEDPRVHALVLGYWHTIVTPPMVFAELTARVVAEFRERGIEKPVVASLA 667

                Y  T++  L+D +V  +V  Y  T V    +  E   + V   R +  +KPVVA   

Sbjct:   369 EEKYAMTLKTVLDDEKVDGVVAVYGKTAV----IDMEKMVQAVINGRRKNPDKPVVACFL 424



Query:   668 GDVEVEEACQYLYERGVVAY--PYTTEKPVAVLGAKYRW 704

             G V+   A + L +  +  Y  P      +AVL   Y W

Sbjct:   425 GGVDSRRAKELLNKNKIPFYSFPEAAADALAVLYRYYSW 463

Было получено два термина GO, отнесённых к моему белку. Они описаны в таблице 2. В таблице 3 пояснены использовавшиеся коды достоверности.


Таблица 2.Термины GO, отнесенные к белку с идентификатором Uniprot Q3AFE8 (Q3AFE8_CARHZ)
АспектИдентификатор GOНазвание терминаПеревод названия терминаКод типа достоверности
Биологический процесс (biological process)GO:0006085 acetyl-CoA biosynthetic processПроцесс биосинтеза ацетил коА синтазыISA
Молукцлярная функция (molecular function)GO:0003985acetyl-CoA C-acetyltransferase activitацетил коА С-ацетилтрансферазная активностьISA

Таблица 3. Описание кода достоверности, использованного в Таблице 2
Код типа достоверностиРасшифровка кода типа достоверностиОбъяснение
ISAInferred from Sequence Alignment (ISA)Данный код является частью ISS (Inferred from Sequence or structural Similarity) и используется лишь тогда, когда проверяющий данные специалист уверен в том, что информация о белке была опубликована в статье или иной форме найчной публикации, то есть, данные были проверены. Заключение о статусе делается из парного или множественного выравнивания.


В данном практикуме были освоены программы AmiGO, cognat и базы данных Conserved Domains, GO. Был произведён поиск консервативного геномного окружения, не увенчавегося особенным успехом. Наиболее частотные находки можно увидеть в теблице 1. Был произведён анализ терминов Go, связанных с лучшей находкой BLAST в AmiGO. Найденные термины и расшифровка кодов помещены в таблицы 2 и 3, соответственно. В целом, с использовавшимся КОГом связано немного других белков.

Ссылки

  1. Conserved Domains
  2. AmiGO