Функции. Онтологии базы данных GO

  1. Знакомство с терминологией GO
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. Описание функции белка ACCC_ECOLI в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где? Cellular Component Клеточный компонент 0
      Зачем, для чего? Biological Process Биологический процесс 5 fatty acid biosynthetic process(Биосинтез жирных кислот)
      metabolic process(метаболический процесс)

      lipid biosynthetic process(биосинтез липидов)
      Молекулярный механизм? Molecular Function Молекулярный механизм 11 catalytic activity(каталичечкая активность)

      ligase activity(лигазная активность)

      biotin carboxylase activity(активность биотина карбоксилазы)

      acetyl-CoA carboxylase activity(активность ацетил-КоА карбоксилазы)
      Специфичность? Molecular Function Молекулярный механизм 1 ATP binding

      nucleotide binding

    3. Описание термина GO
    4. Описание терминов GO

      GO ID выбранного термина Список синонимов Граф родительских, дочерних терминов и терминов-сибсов Список ближайших родительских и дочерних терминов GO с указанием типа связи
      0003989 acetyl-CoA carboxyltransferase (GO:0003985)

      acetyl-CoA:carbon-dioxide ligase (ADP-forming) (GO:0043758)
      __*__ Родительские термины:
      GO:0016421 (CoA carboxylase activity; IS A)

      Дочерних терминов нет
      0016874 нет __*__ Родительские термины:
      GO:0003824 : catalytic activity IS A
      Дочерние термины:
      GO:0003833 : beta-alanyl-dopamine synthase activity IS A
      GO:0045438 : delta-(L-alpha-aminoadipyl)-L-cysteinyl-D-valine synthetase activity IS A
      GO:0016885 : ligase activity, forming carbon-carbon bonds IS A
      GO:0016875 : ligase activity, forming carbon-oxygen bonds IS A
      GO:0016877 : ligase activity, forming carbon-sulfur bonds IS A
      GO:0051002 : ligase activity, forming nitrogen-metal bonds IS A
      GO:0016886 : ligase activity, forming phosphoric ester bonds IS A
      GO:0008754 : O antigen ligase activity IS A
      0006633 GO:0000037
      fatty acid anabolism

      fatty acid biosynthesis

      fatty acid formation

      fatty acid synthesis
      __*__ Родительские термины:
      GO:0046394 : carboxylic acid biosynthetic process IS A
      Дочерние термины:
      GO:0043439 : butanoic acid biosynthetic process IS A
      GO:0010143 : cutin biosynthetic process IS A
      GO:0030497 : fatty acid elongation IS A
      GO:0042759 : long-chain fatty acid biosynthetic process IS A
      GO:0071768 : mycolic acid biosynthetic process IS A
      GO:0045717 : negative regulation of fatty acid biosynthetic process REGULATES
      GO:0031408 : oxylipin biosynthetic process IS A
      GO:0045723 : positive regulation of fatty acid biosynthetic process REGULATES
      GO:0042304 : regulation of fatty acid biosynthetic process REGULATES
      GO:0051790 : short-chain fatty acid biosynthetic process IS A
      GO:0006636 : unsaturated fatty acid biosynthetic process IS A
      GO:0042761 : very long-chain fatty acid biosynthetic process IS A
      GO:0010025 : wax biosynthetic process IS A

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из коровы
    2. Русское название: Корова
      Английское название: Cattle
      Латинское название: Bos taurus
      Ранг: Вид
      NCBI_TaxID: 9913
      Перед поиском белков было изучено поле ProteinExistence БД UniProt. Ему соответствуют 5 значений:
        1: evidence at protein level		свидетельство на белковом уровне
        2: evidence at transcript level	свидетельство на уровне транскрипта
        3: inferred from homology 		вывод сделан на осовании гомологии
        4: predicted 				предсказание
        5: uncertain 				неясно
      

      Соотношение между реальными и гипотетическими белками из организма Bos Taurus (корова)(по данным UniProt)

        Количество в UniProt
      Существование белка доказано экспериментально 1351
      Известны только соответствующие транскрипты 11846
      Гипотетический белок, предсказан по гомологии 876
      Иные предсказанные гипотетические белки 1514

      Большая часть белков представляет собой записи с известными транскриптами, в то время как реально существующие белки по количеству примерно совпадают с сомнительными предсказаниями.

    3. Определение качества функциональной аннотации в UniProt
    4. В SRS был создан запрос по реальным белкам из таксона Bos taurus (ID в NCBI 9913), аннотированным по всем трем словарям GO, у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции.

      (([swissprot-NCBI_TaxId:9913*] & [swissprot-ProteinExistence:1:*]) & (((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*])))

      В результате в SwissProt было найдено 99 записей . Таким образом, половина из реальных белков коровы имеет аннотацию по всем словарям GO.

  3. Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией
    2. Заданная функция: трансляция
      Функция по-английски: translation
      По базе GO был произведен поиск терминов по запросу translation.
      Я выбрал идентификатор GO:0006412 Текст запроса: ((([uniprot-Organism:Bos*] & [uniprot-Organism:taurus*]) |
      [uniprot-Organism:Bos taurus*]) & [uniprot-DBxref_:GO:0006412*]) Всего находок: 222 Результат в fasta формате

    3. Определение главной функции в большом списке белков
    4. Дан файл P24182.txt .В этом файле – список белков, полученных в результате массового эксперимента. Список включает и заданный белок. Задача определить – белки с какими функциями доминируют в этом списке.


      Результаты __**_

      Лучшие находки:

      GO:0006633	biological_process	"17	12316	1.44e-21"
      GO:0046394	biological_process	"17	14444	1.04e-20"
      GO:0016053	biological_process	"17	15053	1.38e-20"
      GO:0006631	biological_process	"17	15757	2.21e-20"
      GO:0032787	biological_process	"20	37474	2.21e-18"
      GO:0005515	molecular_function	"26	137358	1.53e-13"
      GO:0005886	cellular_component	"19	61062	2.45e-13"
      GO:0008610	biological_process	"17	44092	2.45e-13"
      GO:0044255	biological_process	"17	51842	2.91e-12"
      GO:0019752	biological_process	"26	165277	6.61e-12"
      GO:0006082	biological_process	"26	166833	7.45e-12"
      GO:0006629	biological_process	"17	60576	2.56e-11"
      GO:0044249	biological_process	"26	330924	1.89e-07"
      GO:0004312	molecular_function	"6	4935	1.94e-07"
      GO:0003989	molecular_function	"4	3130	5.71e-05"
      GO:0016421	molecular_function	"4	3520	8.49e-05"
      GO:0016885	molecular_function	"4	3880	0.000117"
      GO:0009058	biological_process	"27	446251	0.000198"
      GO:0004315	molecular_function	"3	1776	0.000415"
      GO:0000746	biological_process	"3	2279	0.000825"
      
       

      Самый лучший - GO:0006633 с P-value 1.44e-21. Резкий скачок наблюдается между GO:0016421 и GO:0016885.