Функции. Онтологии базы данных GO.


  1. Знакомство с терминологией GO

    1. Описание функции белка с помощью аннотации Gene Ontology

      Выясним функцию белка ACON2_ECOLI. Для этого перейдем на страницу БД UniProt, оттуда - на страничку описания белка ACON2_ECOLI и, наконец, по гиперссылке "Complete GO annotation..." - на страницу браузера QuickGO EBI. Описание функции белка представлено в таблице:

      Описание функции белка ACON2_ECOLI в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      Где? Cellular Component 0  
      Зачем, для чего? Biological Process 4
      1. Цикл трикарбоновых кислот (метаболический процесс, при котором ацетильная группа ацетил-кофермента А окисляется до 2 СО2, и 4 пары электронов передаются коферментам; ацетильная группа взаимодействует с оксалоацетатом, образуя цитрат, который затем трансформируется в изоцитрат, 2-оксоглутарат, сукцинил-КоА, сукцинат, фумарат, малат и опять в оксалоацетат, таким образом совершая цикл; в эукариотах цикл трикарбоновых кислот имеет место в митохондриях);
      2. Регуляция трансляции (процесс, влияющий на частоту, уровень или степень химических реакций и механизмов, приводящих к образованию белков во время трансляции мРНК);
      3. Процесс катаболизма пропионата в цикле 2-метилцитрата (химические реакции и процессы, приводящие к распаду пропионата в цикле 2-метилцитрата).
      Молекулярный механизм? Molecular Function 3
      1. Лиазная активность (катализ рарезания связей С-С, C-O, C-N и других способами, отличными от гидролиза и окисления, или, наоборот, добавления какой-либо группы по двойной связи; ферменты этого класса отличаются от других тем, что с одной стороны реакции стоят два субстрата, а с другой - один; если в реакции участвует один субстрат, в результате обрауется новая двойная связь или кольцо);
      2. Аконитат-гидратационная активность (катализ реакции: цитрат = цис-аконитат + Н2О = изоцитрат; то есть взаимопревращение цитрата и изоцитрата через лабильный, связанный с ферментом интермедиат цис-аконитат; вода отщепляется от одной части молекулы цитрата и присоединяется к другому атому, образуя изоцитрат);
      3. 2-метилизоцитрат-дегидратационная активность (катализ реакции: 2-метилизоцитрат = H2O + 2-метилаконитат).
      Специфичность? Molecular Function 6
      1. Связывание с белком (селективное и нековалентное взаимодействие с белком или белковым комплексом двух или более белков, иногда содержащим другие небелковые молекулы);
      2. Связывание с 4Fe-4S кластером (селективное и нековалентное взаимодействие с 4Fe-4S кластером, содержащим 4 атома железа и неорганические атомы серы, расположенные между атомами железа и выполняющие функцию лигандов-мостов);
      3. Связывание с 3'-UTR мРНК (селективное и нековалентное взаимодействие с 3' нетранслируемым участком молекулы мРНК);
      4. Связывание с цитратом, изоцитратом и цис-аконитатом - субстратами и промежуточным соединением катализируемой реакции (см. п. 2 таблицы в строке "Молекулярный механизм" и отчет "Ферменты и метаболические пути");
      5. Связывание с 2-метилизоцитратом и 2-метилаконитатом - субстратами катализируемой реакции (см. п. 3 таблицы в строке "Молекулярный механизм").
    2. Описание термина GO

      Выберем 3 наиболее содержательных термина GO, ассоциированных с изучаемым белком, и для каждого термина определим, есть ли точные синонимы, какие термины являются для них родительскими, а какие - дочерними, типы связей между ними. Для этого проведем поиск описаний терминов на главном сайте консорциума Gene Ontology. К сожалению, не нашлось ни одного термина GO, ассоциированного с белком ACON2_ECOLI, из словаря Cellular Component, поэтому возьмем один термин из словаря Biological Process - tricarboxylic acid cycle (цикл трикарбоновых кислот) - и два термина из словаря Molecular Function, один из которых описывает молекулярный механизм - aconitate hydratase activity (аконитат-гидратационная активность) - а второй описывает специфичность - iron-sulfur cluster binding (связывание с Fe/S кластером). Описание терминов представлено в таблице:

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
      GO:0006099 1. Цитратный цикл (citric acid cycle);
      2. Цикл Кребса (Krebs cycle);
      3. Цикл TCA (TCA cycle).
      Граф родительских, дочерних терминов и терминов-сибсов сохранен в файле gra1.png.
      1. GO:0046356,
      ацетил-КоА катаболический процесс (acetyl-CoA catabolic process),
      связь "is a" (то есть цикл трикарбоновых кислот является частью ацетил-КоА катаболического процесса);
      2. GO:0009060,
      аэробное дыхание (aerobic respiration),
      связь "part of" (то есть цикл трикарбоновых кислот является частью аэробного дыхания, но аэробное дыхание не обязательно включает в себя цикл трикарбоновых кислот).
      1. GO:0019643,
      восстановительный цикл трикарбоновых кислот (reductive tricarboxylic acid cycle),
      связь "is a" (то есть восстановительный цикл трикарбоновых кислот является частью цикла трикарбоновых кислот).
      GO:0003994 1. Аконитазная активность (aconitase activity);
      2. Цис-аконитазная активность (cis-aconitase activity);
      3. Цитрат (изоцитрат) гидролиаза (образование цис-аконитата) (citrate(isocitrate) hydro-lyase (cis-aconitate-forming));
      4. Цитрат (изоцитрат) гидролиазная активность (citrate(isocitrate) hydro-lyase activity);
      5.(неточный синоним!) Цитрат гидролиазная активность (citrate hydro-lyase activity).
      Граф родительских, дочерних терминов и терминов-сибсов сохранен в файле gra2.png.
      1. GO:0016836,
      гидролиазная активность (hydro-lyase activity),
      связь "is a" (то есть аконитат-гидратационная активность является частью гидролиазной активности).
      Дочерних терминов у этого термина нет.
      GO:0051536 1. Fe/S binding;
      2. iron sulfur cluster binding;
      3. iron sulphur cluster binding;
      4. iron-sulphur cluster binding;
      Граф родительских, дочерних терминов и терминов-сибсов сохранен в файле gra3.png.
      1. GO:0051540,
      связывание с кластером металлов (metal cluster binding),
      связь "is a" (то есть связывание с Fe/S кластером является частью связывания с кластером металлов).
      1. GO:0051538,
      связывание с 3Fe-4S кластером (3 iron, 4 sulfur cluster binding),
      связь "is a" (то есть связывание с 3Fe-4S кластером является частью связывания с Fe/S кластером);
      2. GO:0051537,
      связывание с 2Fe-2S кластером (2 iron, 2 sulfur cluster binding),
      связь "is a" (то есть связывание с 2Fe-2S кластером является частью связывания с Fe/S кластером);
      3. GO:0051539,
      связывание с 4Fe-4S кластером (4 iron, 4 sulfur cluster binding),
      связь "is a" (то есть связывание с 4Fe-4S кластером является частью связывания с Fe/S кластером).
  2. Оценка качества функциональной аннотации белков в UniProt

    1. Определение числа реальных и гипотетических белков из морской свинки (Cavia porcellus)

      Латинское название морской свинки - Cavia porcellus. Определим на сайте NCBI ранг таксона и его идентификатор. Для этого воспользуемя БД Taxonomy.
      Итак, таксон Cavia porcellus имеет русское название "Морская свинка" и английское название "Domestic guinea pig", ранг таксона - вид, идентификатор (NCBI_TaxId) - 10141.

      Теперь обратимся к SRS и определим число реальных и гипотетических белков из морской свинки. Вначале изучим, как проиндексировано поле ProteinExistence. Оно принимает 5 значений:
      1: evidence at protein level (cуществование белка доказано экспериментально);
      2: evidence at transcript level (известны только соответствующие транскрипты);
      3: inferred from homology (гипотетический белок, предсказанный по гомологии);
      4: predicted (иные предсказанные гипотетические белки);
      5: uncertain (существование белка не доказано).

      Проведем поиск белков из морской свинки (Cavia porcellus) с разной аннотацией по этому полю. Чтобы учесть возможность повторения одной и той же последовательности, каждый раз будем проверять, скольким записям в UNIREF100 соответствует данная выборка (для чего используем опцию Link в окне SRS с находками). На основании полученных данных составим таблицу:

      Соотношение между реальными и гипотетическими белками из
      Cavia porcellus (морской свинки) по данным UniProt

        Количество в UniProt Количество в UniRef100
      Существование белка доказано экспериментально 94 122
      Известны только соответствующие транскрипты 537 575
      Гипотетический белок, предсказан по гомологии 103 169
      Иные предсказанные гипотетические белки 69 69

      Из таблицы видно, что экспериментально доказано существование всего 12% белков из морской свинки. Для большой части известных белков известны лишь соответствующие транскрипты (около 67%). Остальные белки предсказаны только гипотетически. UniRef100 не снизил количество белков каждого запроса, а наоборот увеличил его. Немного поэкспериментировав с запросами, выяснил, в чем причина этой странности. Оказывается, UniRef100 ищет в своем банке данных последовательности, соответствующие всем AC UniProtовских находок, включая старые АС одной и той же последовательности. То есть для каждой последовательности UniProt в UniRef100 может находиться две, три и больше последовательностей (причем, имеющие один и тот же АС). Поэтому количество находок в UniRef100 не уменьшается, а только увеличивается.
      Результаты меня достаточно удивили. Я предполагал, что экспериментально полученных белков не так много, но что их настолько мало, не ожидал. Тем более, морская свинка - достаточно популярный лабораторный объект. Значит, для большинства других животных и растений экспериментально полученных белков еще меньше. Для уверенности повторим поиск по БД Swiss-Prot:

      Соотношение между реальными и гипотетическими белками из
      Cavia porcellus (морской свинки) по данным Swiss-Prot

        Количество в Swiss-Prot Количество в UniRef100
      Существование белка доказано экспериментально 90 118
      Известны только соответствующие транскрипты 166 213
      Гипотетический белок, предсказан по гомологии 40 107
      Иные предсказанные гипотетические белки 0 0

      Эти данные выглядят немного лучше. Экспериментально полученные белки из морской свинки в БД Swiss-Prot составляют 30%, то есть в два раза больше. Процентное содержание белков, для которых известны только соответствующие транскрипты, равно 56%. Да и вообще, из таблицы видно, что в БД Swiss-Prot число экспериментально полученных белков не сильно отличается от числа таких белков в БД UniProt. Зато число белков, для которых известны только транскрипты, и гипотетически предсказанных белков кардинально уменьшилось. Я думаю, это объясняется тем, что Swiss-Prot - курируемая БД, а значит, белки, перед тем как попасть в нее, проходят экспертизу, и часть из них отсеиваются (и в большинстве отсеиваются именно те, чье существование полностью не доказано). Поэтому и процентное содержание экспериментально полученных белков резко возрасло по сравнению с UniProtом.
    2. Определение качества функциональной аннотации в UniProt

      Определим, сколько из реальных белков морской свинки (Cavia porcellus), у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции (см. Guide to GO Evidence Codes), аннотированы по всем трем словарям GO.
      Кодов экспериментального доказательства функции существует всего 6:
      1. Inferred from Experiment (EXP) (получено из эксперимента);
      2. Inferred from Direct Assay (IDA) (получено из прямого анализа);
      3. Inferred from Physical Interaction (IPI) (получено из физического взаимодействия);
      4. Inferred from Mutant Phenotype (IMP) (получено из мутантного фенотипа);
      5. Inferred from Genetic Interaction (IGI) (получено из генетического взаимодействия);
      6. Inferred from Expression Pattern (IEP) (получено из модели экспрессии).

      В результате запрос на такие белки выглядит следующим образом:
      (((([uniprot-Organism:Cavia*] &  [uniprot-Organism:porcellus*]) |  [uniprot-Organism:Cavia porcellus*]) &  [uniprot-ProteinExistence:1:*]) &
      ((((([uniprot-DBxref_:IMP*] | [uniprot-DBxref_:EXP*]) | [uniprot-DBxref_:IDA*]) | [uniprot-DBxref_:IPI*]) | [uniprot-DBxref_:IGI*]) |
      [uniprot-DBxref_:IEP*])) & (([uniprot-DBxref_:F:*] & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]))
      Было получено 4 белка, удовлетворяющих такому запросу (5HT3A_CAVPO, LIPR2_CAVPO, MUP_CAVPO, ZP3R_CAVPO). Это еще раз подтверждает результат, полученный в прошлом задании (экспериментально полученных белков с изученной по всем трем онтологиям функцией, для которой хотя бы один из терминов GO подтвержден экспериментально, очень мало даже в такой БД, как UniProt, даже для такого объекта, как морская свинка). Большинство белков баз данных имеют неполное описание, неизученную до конца и не подтвержденную экспериментально функцию, более того еще до конца не известно, существуют ли вообще эти белки на самом деле.
  3. Использование GO для работы с массовыми данными

    1. Получение выборки последовательностей белков с заданной функцией

      Проведем поиск всех белков из морской свинки (Cavia porcellus), выполняющих функцию гликолиза. Для этого вначале проведем поиск среди всех терминов GO на сайте консорциума Gene Ontology. Искать будем термин "glycolysis" (перевод слова "гликолиз" на английский).
      Такой термин в GO обнаружился, его ID - GO:0006096. Этот термин относится к словарю Biological Process.
      Теперь проведем поиск белков из таксона Cavia porcellus с таким идентификатором в БД UniProt. Запрос на соответствующие белки выглядит следующим образом:
      ((([uniprot-Organism:Cavia*] &  [uniprot-Organism:porcellus*]) |  [uniprot-Organism:Cavia porcellus*]) &  [uniprot-DBxref_:GO:0006096*])
      В результате было получено 6 последовательностей (G3P_CAVPO, A9YWS9_CAVPO, B5AN23_CAVPO, Q0QEU2_CAVPO, Q0QF42_CAVPO и Q99N41_CAVPO). Все находки были сохранены в виде файла glyc.fasta с последовательностями в формате FASTA. Интересно, что для всех белков известны только соответствующие транскрипты (существование ни одного из них экспериментально доказано не было). Тем не менее, 5 из них аннотированы по всем трем словарям GO и только 1 (Q0QF42_CAVPO) не аннотирован по словарю GO Cellular Component.
    2. Определение главной функции в большом списке белков

      Мне был дан текстовый файл P36683.txt со списком белков, полученных в результате массового эксперимента, среди которых есть и изучаемый белок ACON2_ECOLI. Определим, белки с какими функциями доминируют в этом списке. Для этого воспользуемся программой GOstat.
      В результате был получен список терминов GO в порядке возрастания вероятности того, что частота термина близка к его частоте в случайной выборке терминов (P-value). Причем, в моем случае у одного термина P-value отличается от других сильнее всего (на 31 порядок): его P-value равно 2.02e-53, в то время как P-value следующего по распространенности белка равно уже 4.3e-22. Кроме того, после 12 терминов GO c самым низким P-value наблюдается резкий скачок значения P-value (с 1.82e-15 до 3.66e-07). Это признак порогового значения. Таким образом, можно доверять 12 терминам GO. Рассмотрим их:

      "Абсолютный лидер" среди терминов - GO:0005515 (P-value = 2.02e-53). Этот термин имеет название "protein binding", то есть "связывание с белком". Его онтология - Molecular Function. Этот термин ассоциирован с изучаемым белком ACON2_ECOLI и еще с 40 белками в списке.
      Следующий по P-value термин - GO:0006417 (P-value = 4.3e-22). Этот термин имеет название "regulation of translation", то есть "регуляция трансляции". Его онтология - Biological Process. По данным программы GOstat этот термин не ассоциирован с изучаемым белком ACON2_ECOLI, однако браузер QuickGO EBI ассоциировал этот термин с белком ACON2_ECOLI (см. пункт 1).
      Следующий по P-value термин - GO:0031326 (P-value = 4.3e-22). Этот термин имеет название "regulation of cellular biosynthetic process", то есть "регуляция клеточного биосинтеза". Его онтология - Biological Process. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI.
      Следующий по P-value термин - GO:0009889 (P-value = 4.3e-22). Этот термин имеет название "regulation of biosynthetic process", то есть "регуляция биосинтеза". Его онтология - Biological Process. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI.
      Следующий по P-value термин - GO:0051246 (P-value = 3.28e-19). Этот термин имеет название "regulation of protein metabolic process", то есть "регуляция метаболического процесса белка". Его онтология - Biological Process. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI, но он, как и 3 предыдущих термина, ассоциирован с 14 белками из списка (причем, эти 4 термина ассоциированы с одними и теми же белками).
      Следующий по P-value термин - GO:0005886 (P-value = 7.32e-18). Этот термин имеет название "plasma membrane", то есть "плазматическая мембрана". Его онтология - Cellular Component. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI, но ассоциирован с 26 белками.
      Следующий по P-value термин - GO:0031323 (P-value = 3.76e-17). Этот термин имеет название "regulation of cellular metabolic process", то есть "регуляция клеточного метаболического процесса". Его онтология - Biological Process. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI.
      Следующий по P-value термин - GO:0010468 (P-value = 4.83e-17). Этот термин имеет название "regulation of gene expression", то есть "регуляция экспрессии гена". Его онтология - Biological Process. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI.
      Следующий по P-value термин - GO:0019222 (P-value = 9.84e-17). Этот термин имеет название "regulation of metabolic process", то есть "регуляция метаболического процесса". Его онтология - Biological Process. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI, но ассоциирован с 34 белками, как и 2 предыдущих термина (причем, эти 4 термина ассоциированы с одними и теми же белками).
      Следующий по P-value термин - GO:0065007 (P-value = 1.22e-16). Этот термин имеет название "biological regulation", то есть "биологическая регуляция". Его онтология - Biological Process. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI, но ассоциирован с 38 белками (включая все 34 белка из предыдущего примера).
      Следующий по P-value термин - GO:0050794 (P-value = 1.22e-16). Этот термин имеет название "regulation of cellular process", то есть "регуляция клеточного процесса". Его онтология - Biological Process. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI, но ассоциирован с 34 белками (все теми же, что и в предыдущих 4 примерах).
      Следующий по P-value термин - GO:0050789 (P-value = 1.82e-15). Этот термин имеет название "regulation of biological process", то есть "регуляция биологического процесса". Его онтология - Biological Process. Этот термин не ассоциирован с изучаемым белком ACON2_ECOLI, но ассоциирован с 35 белками (включая 34 белка из предыдущих примеров).
      Далее в списке терминов идет порог значения P-value, поэтому дальнейшие термины мы рассматривать не будем.

      Как видно из списка, из 12 самых перепредставленных терминов с заданным белком (ACON2_ECOLI) ассоциировано только два. Причем, один из них (регуляция трансляции) программа GOstat с белком ACON2_ECOLI не ассоциирует, а второй (связывание с белком) характеризует слишком общую и малоинформативную функцию (белков, связывающихся с другими белками, очень много, поэтому неудивительно, что в нашем списке нашлось столько белков, ассоциированных с таким термином; поэтому P-value получилось таким маленьким). Если посмотреть на список терминов в поисках следующего термина, ассоциированного с белком ACON2_ECOLI, его удастся найти гораздо ниже 12 самых перепредставленных терминов, причем P-value его равно 0.001, то есть это достаточно высокое значение P-value. Термин этот называется "cellular metabolic process", то есть "клеточный метаболический процесс" (опять же этой функцией обладают очень многие белки, не имеющие ничего общего друг с другом). Становится очевидным, что главная функция в списке белков не совпадает с основной функцией изучаемого белка ACON2_ECOLI и имеет с ней очень мало общего.

      А главная функция в данном списке белков, исходя из списка терминов, полученного программой GOstat, - это регуляция экспресии гена. В частности, многие из этих белков оказывают непосредственное действие на регуляцию трансляции белка (эту функцию выполняет и ACON2_ECOLI по данным сервера QuickGO EBI, но для него эта функция побочная, а не основная). Конечно, этот процесс является метаболическим, так как его результатом оказывается биосинтез белка, поэтому остальные термины, выраженные примерно одинаково и имеющие в своем названии слова "регуляция метаболического процесса", вполне укладываются в картину главной функции. Да и термин "связывание с белком" тоже вполне подходит под эту функцию, ведь регуляция трансляции почти наверняка предполагает связывание с белком.
      Многие другие белки объединены тем, что выполняют свою функцию в клеточной мембране. Какую именно функцию они там выполняют, не понятно, но то, что они локализованы в одном месте, тоже в некотором смысле является их функцией (да и термин этот имеет достаточно низкий P-value - таких белков в списке достаточно много, да и не так много существует белков, выполняющих свою функцию в клеточной мембране (по сравнению с другими клеточными структурами)).
      Конечно, основная функция белка ACON2_ECOLI - участие в цикле трикарбоновых кислот - не связана ни с одной из главных функций белков списка (описанных выше). Лишь побочная функция ACON2_ECOLI - регуляция трансляции - объединяет изучаемый белок с другими белками списка.

Назад