Назад

    Функции. Онтологии базы данных GO

  1. Знакомство с терминологией GO.
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. На странице UniProt с описанием белка ASPA_Ecoli переходим по гиперссылке "Complete GO annotation..." на страницу браузера QuickGO EBI.

      По данной аннотации заполнена таблица:

      Описание функции белка ASPA_Ecoli в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где? Cellular Component 2 Цитозоль - часть цитоплазмы, не содержащая органелл, но содержащая другие вещества, такие как белковые комплексы

      Мембрана - двойной молекулярный липидный слой, окружающий все клетки, и, у эукариот, многие органеллы. Возможен одинарный или двойной липидный бислой. В мембране содержатся связанные с ней белки.

      Зачем, для чего? Biological Process 2 Метаболизм аспартата: химические реакции и пути, с участием аспартата, аниона аспарагиновой кислоты, 2-аминобутандиовая кислота.

      Цикл трикарбоновых кислот: почти универсальный метаболический путь, в котором ацетил-КоА эффективно окисляется до двух молекул СО2 с переносом 4 пар электронов. В результате взаимодействия ацетильной группы с оксалоацетатом образуется цитрат, который подвергается успешным трансформациям в изоцитрат, 2-оксоглутарат, сукцинил-КоА, сукцинат, фумарат, малат и снова оксалоацетат, тем самым, завершая цикл. В эукариотических клетках цикл трикарбоновых кислот локализован в митохондриях.

      Молекулярный механизм? Molecular Function 4 Каталитическая активность: катализ биохимических реакций при физиологической температуре. В биологически катализируемых реакциях реагенты называются субстратами, катализатором обычно является макромолекулярное вещество, называемое ферментом. Фермент обладает специфическим сайтом связывания с субстратом и обычно состоят большей частью или полностью из белков, но РНК, которая обладает каталитической активностью(рибозимы), также часто относят к ферментам.

      Лиазная активность: катализ расщепления связей C-C, C-O, C-N и др., имеющий иной механизм, по сравнению с гидролизом или окислением, или, наоборот, присоединение какой-либо группы по двойной связи. Отличие лиаз от других ферментов заключается в том, что реакция в одном направлении проходит с участием двух субстратов, в другом направлении - только с одним субстратом. Когда фермент взаимодействует с одним субстратом, молекула элиминируется, что приводит к образованию новой двойной связи или новому циклу.

      Связывание с белком: взаимодействие селективно и нековалентно с каким-либо белком или белковым комплексом(комплекс из 2 и более белков, может содержать небелковые молекулы).

      Аспартат аммоний-лиазная активность: катализ реакции расщепления L-аспартата на фумарат и аммиак

      Специфичность? Molecular Function 1

      Аспартат аммония

    3. Описание термина GO
    4. Выбирали 3 наиболее содержатальных термина GO, ассоциированных с изучаемым белком, по одному термину из каждого словаря GO. Провели поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology. Для каждого определили, есть ли точные синонимы, какие термины являются родительскими, а какие — дочерними, типы связей между ними
      По результатам заполнили таблицу:

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
      0006531 aspartate metabolism
      (метаболизм аспартата)
      GO:0009066
      aspartate family amino acid metabolic process
      (метаболизм семейства аспарагиновых аминокислот)
      тип связи "_is_a"

      GO:0006533
      aspartate catabolic process(катаболизм аспартата)
      тип связи "_is_a"

      GO:0006532
      aspartate biosynthetic process(биосинтез аспартата)
      тип связи "_is_a"

      GO:0019550
      glutamate catabolic process to aspartate
      (процесс катаболического превращения глутамата в аспартат )
      тип связи "_is_a"

      GO:0019355
      nicotinamide nucleotide biosynthetic process from aspartate
      (процесс биосинтеза никотинамидного нуклеотида из аспартата)
      тип связи "_is_a"

      изображение графа родительских, дочерних терминов и терминов-сибсов

      0008797 1. aspartase activity(аспартатная активность),
      2. fumaric aminase activity(см.4),
      3. L-aspartase activity (L-аспартатная активность),
      4. L-aspartate ammonia-lyase (fumarate-forming/L-аспартат аммоний-лиаза),
      5. L-aspartate ammonia-lyase activity(L-аспартат аммоний-лиазная активность)
      GO:0016841
      ammonia-lyase activity
      (аммоний-лиазная активность)
      тип связи "_is_a"

      изображение графа родительских, дочерних терминов и терминов-сибсов

      ---
      0005829 --- GO:0044444
      cytoplasmic part
      (цитоплазматическая область)
      тип связи "_is_a"

      GO:0044445
      cytoplasmic part
      (цитоплазматическая область)
      тип связи "_part_of"

      изображение графа родительских, дочерних терминов и терминов-сибсов

      "А_is_В" - означает, что А - часть В.
      "A_part_of_B" означает, что А - часть В, но В не обязательно содержит А.

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из риса
    2. 	Латинское название  - Oryza L.
      	Английское название - Rice
      	Русское название    - Рис

      На сайте NCBI в БД Taxonomy определили для Oryza L.

      	ранг таксона: 		    род 
      	идентификатор (NCBI_TaxID): 4527.
      

      Изучим в SRS поле ProteinExistence БД UniProt:

      	1: evidence at protein level    (Экспериментальные данные о существовании белка)
        	2: evidence at transcript level (Экспериментальные данные о существовании транскрипта, 
      					 существование белка строго не доказано)
        	3: inferred from homology       (Гипотетический белок, предсказан по гомологии)
        	4: predicted                    (Иные предсказанные гипотетические белки)
        	5: uncertain                    (Сомнительное существование белка) 
      

      Соотношение между реальными и гипотетическими белками из Oryza L.(по данным UniProt)

        Количество в UniProt UniProt, %
      Существование белка доказано экспериментально 385 0,26
      Известны только соответствующие транскрипты 16065 10,97
      Гипотетический белок, предсказан по гомологии 9596 6,56
      Иные предсказанные гипотетические белки 120394 82,21

      Соотношение между реальными и гипотетическими белками из Oryza L.(по данным SwissProt)

        Количество в SwissProt SwissProt, %
      Существование белка доказано экспериментально 275 9,2
      Известны только соответствующие транскрипты 2001 66,4
      Гипотетический белок, предсказан по гомологии 724 24,0
      Иные предсказанные гипотетические белки 13 0,4

      Полученные данные показывают, что число белков, существование которых подтверждено экспериментально, незначительно по сравнению с транскриптами или гипотетическими белками, что особенно выражено в БД UniProt, за счет большого количества гипотетических белков, предсказанных без обращения к гомологии. Даже транскриптов известно всего лишь порядка 10%.
      Что касается БД SwissProt, то здесь количество "сомнительных" белков значительно меньше, что и улучшает общие показатели.

    3. Определение качества функциональной аннотации в UniProt
    4. Коды экспериментального доказательства функции: 
      
      	# EXP: Inferred from Experiment
      	# IDA: Inferred from Direct Assay
      	# IPI: Inferred from Physical Interaction
      	# IMP: Inferred from Mutant Phenotype
      	# IGI: Inferred from Genetic Interaction
      	# IEP: Inferred from Expression Pattern 
      
      Запрос: 
      	Taxonomy: 	   Oryza
      	ProteinExistence   1: evidence at protein level 
      	DBxref_		   (*GO*)&(*P:*)&(*F:*)&(*C:*)&(EXP:|IDA:|IPI:|IMP:|IGI:|IEP:)
      
      Если в запрос включить транскрипты, результат остается прежним.
      
         ((([uniprot-Taxonomy:Oryza*] &  ((((([uniprot-ProteinExistence:1:*] &  [uniprot-ProteinExistence:evidence*]) 
         &  [uniprot-ProteinExistence:at*]) &  [uniprot-ProteinExistence:protein*]) 
         &  [uniprot-ProteinExistence:level*]) |  [uniprot-ProteinExistence:1: evidence at protein level*]))  
         & (((([uniprot-DBxref_:*GO*] & [uniprot-DBxref_:*P:*]) &  [uniprot-DBxref_:*F:*]) & [uniprot-DBxref_:*C:*]) 
         &  ((((([uniprot-DBxref_:EXP:*] | [uniprot-DBxref_:IDA:*]) |  [uniprot-DBxref_:IPI:*])
         | [uniprot-DBxref_:IMP:*]) |  [uniprot-DBxref_:IGI:*]) | [uniprot-DBxref_:IEP:*]))) 

      В результате получено 30 записей

      Такое небольшое количество аннотированых по трем онтологиям белков с подтвержденной экспериментально функцией(< 8% ), вероятно, связано с недостаточной изученностью белков и временными затратами на экспериментальные подтверждения.

  3. Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией
    2. Задана биологическая функция:
      	биосинтез пиримидинов(англ. pyrimidine biosynthesis).
      
      Поиск среди всех терминов GO на сайте консорциума Gene Ontology не дал результатов именно биосинтеза пиримидинов, но выдал различные находки по биосинтезу пиримидиновых оснований, нуклеотидов и т.п.
      Выбрали одну из находок:
      	GO:       0019856(pyrimidine base biosynthetic process)
      	Ontology: Biological process
       

      Осуществили поиск в SRS:

      запрос ([uniprot-DBxref_:GO:0019856*] & [uniprot-Taxonomy:Oryza*])
      
      В результате найдено 3 белка ( получить последовательность ).
      Белки проаннотированы по словарям: Function, Biological Process.
      Для всех находок указано:
      	GO:0004151; F:dihydroorotase activity; IEA*:InterPro.
      	GO:0046872; F:metal ion binding; IEA:UniProtKB-KW.
      	GO:0019856; P:pyrimidine base biosynthetic process; IEA:InterPro. 
      *ссылка на электронную аннотацию других БД.
      
      найденные белки относятся к семейству дегидротаз, для Q0JJD1_ORYSJ известен транскрипт, A2WV09_ORYSI и Q94J38_ORYSJ - гипотетические белки по гомологии.

    3. Определение главной функции в большом списке белков
    4. Задан белок P0AC38, в файле P0AC38.txt находится список белков, полученный в результате массового эксперимента. Список включает и заданный белок.
      Определить – белки с какими функциями доминируют в этом списке.
      Для этого используем программу GOstat.

      Параметры поиска:

      Available GO gene-association databases & commonly used gene collections: goa_uniprot;
      Maximal p-value in GO output list: 0.01. 
      

      Список выданных терминов(28 терминов):

      	GO:0005515	2.84e-08
      	GO:0009435	9.13e-07
      	GO:0019674	9.13e-07
      	GO:0019363	1.24e-06
      	GO:0005886	2.09e-05
      	GO:0006769	3.52e-05
      	GO:0019362	3.72e-05
      	GO:0006733	8.57e-05
      	GO:0033692	0.000338
      	GO:0000271	0.000643
      	GO:0044264	0.000882
      	GO:0005976	0.00107
      	GO:0043284	0.00288
      	GO:0005624	0.0031
      	GO:0000267	0.0031
      	GO:0042364	0.0031
      	GO:0044262	0.0032
      	GO:0018055	0.0032
      	GO:0009110	0.0032
      	GO:0044238	0.0032
      	GO:0009058	0.00405
      	GO:0044237	0.00405
      	GO:0006767	0.00497
      	GO:0006766	0.00584
      	GO:0016740	0.0059
      	GO:0009080	0.00771
      	GO:0006524	0.00771
      	GO:0006732	0.00771
      
      

      Чем меньше P-value, тем ниже вероятность, что частота термина GO близка к его частоте в случайной выборке терминов. При переходе от 8 к 9 термину значение P-value резко возрастает, это признак порогового значения.

      Самыми перепредставленными являются белки GO:0005515, GO:0009435, GO:0019674, GO:0019363, GO:0005886, GO:0006769, GO:0019362, GO:0006733.
      Заполним для них таблицу:

      GO ID Term Ontology Definition P-value
      0005515 protein binding molecular function Селективное и нековалентное связывание с любым белком или белковым комплексом 2.84e-08
      0009435 NAD biosynthetic process biological process Химические реакции и пути, в результате которых формируется никотинамид-аденин-динуклеотид(NAD), кофермент, присутствующий в большинстве живых клеток, образован из витамин В никотиновой кислоты; биосинтез возможен из NAD и NADH 9.13e-07
      0019674 NAD metabolic process biological process Химические реакции и пути с участием никотинамид-аденин-динуклеотида(NAD), кофермента, присутствующего в большинстве живых клеток, образованного из витамин В никотиновой кислоты 9.13e-07
      0019363 pyridine nucleotide biosynthetic process biological process Химические реакции и пути, в результате которых формируется пиридиновый нуклеотид, пиридиновое производное в качестве азотистого основания. 1.24e-06
      0005886 plasma membrane cellular component Мембрана, окружающая клетку, отделяющая клетку от внешней среды; состоит из фосфолипидного бислоя и связанных с ним белков. 2.09e-05
      0006769 nicotinamide metabolic process biological process Химические реакции и пути с участием никотинамида, пиридин-3-карбоксиамида, амида никотиновой кислоты. Является частью В комплекса витаминов, широко распростанен в живых организмах 3.52e-05
      0019362 pyridine nucleotide metabolic process biological process Химические реакции и пути с участием пиридинового нуклеотида, пиридиновое производное, являющееся азотистым основанием 3.72e-05
      0006733 oxidoreduction coenzyme metabolic process biological process Химические реакции и пути, включающие добавление необходимых коферментов к ферменту и субстрату для успешного прохождения окислительно-восстановительной реакции 8.57e-05

      В списке доминирующей функцией является селективное нековалентное связывание с белковым комплексом или белком. Белки находятся в плазматической мембране, участвуют в биологических процессах, таких как биосинтез и метаболизм NAD и пиридиновых нуклеотидов.



      © Ксения Лежнина 2008-2010