Функции. Онтологии базы данных GO.

  1. Знакомство с терминологией GO
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. Откроем страницу UniProt с описанием заданного белка P0A7B3. Перейдем по гиперссылке "Complete GO annotation..." на страницу браузера QuickGO EBI. Внимательно рассмотрим открывшуюся таблицу, найдем гиперссылки на странички с описанием терминов. Опишим функцию белка в таблице:

      Описание функции белка PPNK _Ecoli в соответствии с GO-аннотацией:

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где?
      Cellular Component
      1 Находится в цитоплазме.
      Зачем, для чего? Biological Process  2

      Метаболические процессы - химические реакции и пути, включая катаболизм и анаболиз, преобразования химических веществ в организме. Метаболические процессы обычно это преобразование маленьких молекул, но также это может быть макромолекулярные процессы, такие как репарации ДНК, репликации, синтеза белка и деградации. Следует обратить внимание, что метаболические процессы не включают отдельные функции и процессы, такие как белок-белковые, белково-нуклеиновых кислотные, рецептор-лигандовые взаимодействия.

      Процесс биосинтеза NADP  - химические реакции и пути, приводящие к образованию никотинамида-аденин динуклеотид фосфат, кофермент, участвующий во многих окислительно-восстановительных и биосинтетических реакций; Его биосинтез может быть как в окисленной форме, NADP, так и в восстановленной форме, NADPH.

      Молекулярный механизм? Molecular Function 3

      NAD+ киназная активность - катализирует реакцию: ATP + NAD+ = ADP + NADP+.

      Трансферазная активность - катализирует передачи групп, например: метильных групп, гликозил групп, ацил групп, фосфор-и азотсодержащих, или других групп, от одного соединения (как правило, рассматривается в качестве донора) другому соединению (как правило, рассматривается в качестве акцептора). Трансфераза - систематическое имя для любой фермент ЕС класса 2.

      Киназная активность - катализирует передачу фосфатной группы, как правило, от АТФ, к молекуле субстрата.
      Следует обратить внимание, что этот термин охватывает все виды передачи одной фосфатной группы, хотя АТФ на сегодняшний день является наиболее распространенным донором фосфата, реакции, с использованием других фосфатных доноров входят в этот же тип активности.

      Специфичность? Molecular Function 3

      Связывание иона металла - взаимодействие выборочное, нековалентное с любым ионом металла.

      Связывание нуклеотидов - взаимодействие выборочное, нековалентное с нуклеотидами ( любое соединение, состоящее из нуклеозидов, которые сэтерифицированным (орто) фосфатом или олигофосфатом в любой гидроксильной группой по рибозному или дезоксирибозному фрагменту).

      Связывание с АТФ - взаимодействие выборочнео и нековалентное с АТФ (аденозин-5'-трифосфатом - универсальный и важный регулятор ферментов и коферментов).

    3. Описание термина GO.
    4. Выберем 3 наиболее содержатальных, на наш взгляд, термина GO, ассоциированных с изучаемым белком, по одному термину из каждого словаря GO. Проведе поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology. Данные, полученные в результате анализа, оформим в виде таблицы (см. ниже).

      Прикрепите к отчету три файла с изображением графа родительских, дочерних терминов и терминов-сибсов.

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
      GO:0008152 Метаболический процесс.

      1. метаболизм, приводящий к росту клетки

      2.метаболизм

      3. метаболические процессы, приводящие к клеточному росту

      GO:0008150 биологический процесс (is a)
      Скачать граф

      1. GO:0043170 процессы метаболизма макромолекул (is a);
      2. GO:0006807 процессы метаболизма молекул, содержащих нитро-компонент (is a);
      3. GO:0009892 негативная регуляци метаболических процессов (negatively regulates);
      4. GO:0009893 положительная регуляция процессов метаболизма (positively regulates);
      5. GO:0019222 регуляция процессов метаболизма (regulates);
      6. GO:0009056 процесс катаболизма (is a);
      7. GO:0009058 процесс биосинтеза (is a);
      8. GO:0019748 вторичные процессы метаболизма (is a);
      9. GO:0044236 процессы метаболизма межклеточного органного (is a);
      10. GO:0044237 процессы клеточного метаболизма (is a);
      11. GO:0044238 первичные метаболические процессы (is a);
      12. GO:0042440 процессы метаболизма пигментов (is a);
      13. GO:0044033 процессы метаболизма мульти-органные (is a);
      14. GO:0019637 процессы метаболизма органофосфатов (is a);
      15. GO:0071704 процессы метаболизма органических соединений (is a);
      16. GO:0044281 процессы метаболизма маленких молекул (is a);
      17. GO:0042445 процессы метаболизма гормонов (is a);
      18. GO:0055114 окислительное восстановление (is a);
      19. GO:0045730 восстановление разрывов (is a).

      GO:0016740 Трансферазная активность.
      Нет.
      GO:0003824 каталитическая активность (is a.
      Его родительский термин GO:0003674 молекулярная функция)
      Скачать граф
      1. GO:0008665 : 2'-фосфотрансферазная активность (is a);
      2. GO:0008414 : CDP-алкоголь фосфотрансферазная активность (is a);
      3. GO:0008820 : кобинамид фосфат гуанилинтрансферазная активность (is a);
      4. GO:0042123 : гликанозилтрансферазная активность (is a);
      5. GO:0043842 : Kdo трансферазная активность (is a);
      6. GO:0000031 : моносульфофосфат трансферазная активность (is a);
      7. GO:0051075 : S-аденозилметионин:тРНК рибонозилтрансферазная-изомеразная активность (is a);
      8. GO:0016746 : трансферазная активность, перенос ацильных групп (is a);
      9. GO:0016744 : трансферазная активность, перенос альдегидных и кетонных групп (is a);
      10. GO:0016765 : трансферазная активность, перенос алкильных и арильных групп (is a);
      11. GO:0016757 : трансферазная активность, перенос гликозильных групп (is a);
      12. GO:0016769 : трансферазная активность, перенос нитро- групп (is a);
      13. GO:0016741 : трансферазная активность, перенос групп, содержащих один углерод (is a);
      14. GO:0016772 : трансферазная активность, перенос фосфорсодержащих групп (is a);
      15. GO:0016785 : трансферазная активность, перенос селенсодержащих групп (is a);
      16. GO:0016782 : трансферазная активность, перенос серосодержащих групп (is a).
      GO:0046872 Связывание иона металла.

      1. Связывание тяжелого металла

      2. Металлсвязывание

      GO:0043169 связывание катиона
      (is a.)
      Из GO:0043167 (связывание иона)=>
      GO:0005488 (связывание) =>
      GO:0003674 (молекулярная функция)
      Скачать граф
      1. GO:0031420 : связывание ионов щелочных металлов (is a);
      2. GO:0005509 : связывание ионов кальция(is a);
      3. GO:0032791 : связывание ионов свинца(is a);
      4. GO:0000287 : связывание ионов магния (is a);
      5. GO:0046911 : металл-хелативная активность (is a);
      6. GO:0046914 : трансионное связывание ионов металлов (is a).

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из таксона Пшеницы ( Triticum L.)
    2. На сайте NCBI в "Taxonomy" определим ранг таксона и его идентификатор (NCBI_TaxID):

      таксон:                Triticum L.;  
      русское название:      Пшеница; 
      английское название:   Triticum; 
      латинское название:    Triticum;
      ранг:                  genus (род);
      NCBI_TaxID:            4564.

      Изучим, как в SRS проиндексировано поле ProteinExistence БД UniProt.
      Это поле может принимать 5 значений:

        1: evidence at protein level (cуществование белка доказано экспериментально);
        2: evidence at transcript level (известны только соответствующие транскрипты);
        3: inferred from homology (гипотетический белок, предсказанный по гомологии);
        4: predicted (иные предсказанные гипотетические белки);
        5: uncertain (существование белка не доказано).

      Теперь проведем поиск белков из заданного таксона с разной аннотацией по этому полю. Чтобы учесть возможность повторения одной и той же последовательности, каждый раз будем проверять, скольким записям в UNIREF100 соответствует данная выборка (для чего используем опцию Link в окне SRS с находками).

      Соотношение между реальными и гипотетическими белками из Triticum (по данным UniProt)

        Количество в UniProt
      Существование белка доказано экспериментально
      155
      Известны только соответствующие транскрипты
      2397
      Гипотетический белок, предсказан по гомологии
      596
      Иные предсказанные гипотетические белки
      2766

      На данном примере видно,что данные из UniRef100 не всегда уменьшают количество белков, а иногда и увеличивают, что может объясняться поиском по АС номерам, а в UniProt нескольким АС может соответствовать одна последовательность. Наибольшее количество белков обнаружено через гипотетические белки (предсказанные иными методами), на втором месте транскрипты, на третьем предсказания, связанные с гомологией. Вообще, можно сделать очевидный вывод, что эксперементальные данные очень отстают от теоритических предсказаний.

    3. Определение качества функциональной аннотации в UniProt
    4. Определим с помощью одного запроса к SRS*, сколько из реальных (см. выше) белков таксона Triticum аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции (см. Guide to GO Evidence Codes).

      Кодов экспериментального доказательства функции существует всего 6:

        1. Inferred from Experiment (EXP) (из эксперимента);
        2. Inferred from Direct Assay (IDA) (из прямого анализа);
        3. Inferred from Physical Interaction (IPI) (из физического взаимодействия);
        4. Inferred from Mutant Phenotype (IMP) (из мутантного фенотипа);
        5. Inferred from Genetic Interaction (IGI) (из генетического взаимодействия);
        6. Inferred from Expression Pattern (IEP) (из модели экспрессии).

      Был выполнен запрос:

      (([uniprot-Taxonomy:Triticum*] &  [uniprot-ProteinExistence:1:*]) &  ((((([uniprot-DBxref_:EXP:*] | [uniprot-DBxref_:IDA:*]) |
      [uniprot-DBxref_:IPI:*]) | [uniprot-DBxref_:IMP:*]) | [uniprot-DBxref_:IGI:*]) | [uniprot-DBxref_:IEP:*]))

      В результате были найдены 4 белка:

      HS16B_WHEAT, IAA2_WHEAT, RAF1A_WHEAT, RAF1B_WHEAT.
      Из этого можно сделать вывод о том, что большинство белков баз данных имеют неполное описание, неизученную до конца и не подтвержденную экспериментально функцию, а в некоторых случаях не подтвержденно и их существование.

  3. Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией
    2. Нам задан таксон Triticum и биологическая функция Фосфорилирование (Phosphorylation) . Проведем поиск среди всех терминов GO на сайте консорциума Gene Ontology.
      Самый подходящий идентификатор GO: GO:0016310, он относится к словарю biological process . Затем проведем поиск  в БД UniProt всех белков из заданного таксона с таким идентификатором GO:

      ([uniprot-Taxonomy:Triticum*] &  [uniprot-DBxref_:GO:0016310*])

      Была найдена 1 находка - Q7XYB5_WHEAT.

      Последовательность.

    3. Определение главной функции в большом списке белков
    4. Дан файл - в нем список белков, полученный в результате массового эксперимента. Список включает и заданный белок. Необходимо определить – белки с какими функциями доминируют в этом списке для этого используем для этого программу GOstat.

      В результате был получен список терминов GO в порядке возрастания вероятности того, что частота термина близка к его частоте в случайной выборке терминов (P-value > 0.01 не доверяем). Рассмотрим их (больше e-4 не указываем): 

      GO:0016301  0
      GO:0005886  0
      GO:0005515  0
      GO:0016773  0
      GO:0015291  6.16e-78
      GO:0016772  1.44e-68
      GO:0005351  1.21e-42
      GO:0009401  4.26e-42
      GO:0051119  1.32e-41
      GO:0007165  1.82e-40
      GO:0015144  2.42e-39
      GO:0015293  4.96e-39
      GO:0016740  1.02e-38
      GO:0008643  8.88e-38
      GO:0007154  3.71e-34
      GO:0008982  1.56e-29
      GO:0022804  2.02e-26
      GO:0044262  5.56e-25
      GO:0019200  2.09e-22
      GO:0044464  4.16e-20
      GO:0005624  2.23e-17
      GO:0000267  3.63e-17
      GO:0016775  4.62e-17
      GO:0005975  1.27e-15
      GO:0018106  9.98e-15
      GO:0018193  9.98e-15
      GO:0018202  1.06e-14
      GO:0043226  1.29e-14
      GO:0043229  1.29e-14
      GO:0000160  2.08e-14
      GO:0004672  4.56e-14
      GO:0043231  6.64e-14
      GO:0006066  7.51e-14
      GO:0016021  1.74e-13
      GO:0043227  1.74e-13
      GO:0031224  2.21e-13
      GO:0004673  2.52e-13
      GO:0000155  5.25e-13
      GO:0044425  9.47e-13
      GO:0006468  3.29e-12
      GO:0044444  3.88e-11
      GO:0005996  4.21e-11
      GO:0030554  1.42e-10
      GO:0005524  1.81e-10
      GO:0032559  2.13e-10
      GO:0016020  7.53e-10
      GO:0042597  1.69e-09
      GO:0006810  6.24e-09
      GO:0051234  3.81e-08
      GO:0051179  4.77e-08
      GO:0016774  4.87e-08
      GO:0044422  1.04e-07
      GO:0044446  1.05e-07
      GO:0006807  1.12e-07
      GO:0022892  1.68e-07
      GO:0006082  2.2e-07
      GO:0016491  3.04e-07
      GO:0016310  3.17e-07
      GO:0000287  3.77e-07
      GO:0017076  3.77e-07
      GO:0043687  5.26e-07
      GO:0006796  5.6e-07
      GO:0006793  5.69e-07
      GO:0043213  6.1e-07
      GO:0033692  6.24e-07
      GO:0032555  7.35e-07
      GO:0032553  7.35e-07
      GO:0009103  2.35e-06
      GO:0008653  2.35e-06
      GO:0000166  2.73e-06
      GO:0008652  3.09e-06
      GO:0022891  3.81e-06
      GO:0000271  4.45e-06
      GO:0008965  6.28e-06
      GO:0009308  7.31e-06
      GO:0019752  9.88e-06
      GO:0009309  1.17e-05
      GO:0022857  1.17e-05
      GO:0006091  1.18e-05
      GO:0044271  1.23e-05
      GO:0044264  1.23e-05
      GO:0046656  1.36e-05
      GO:0046655  1.36e-05
      GO:0019318  1.55e-05
      GO:0006118  2.43e-05
      GO:0005976  2.43e-05
      GO:0006464  2.9e-05
      GO:0030313  3.8e-05
      GO:0044462  3.86e-05
      GO:0030312  4.31e-05
      GO:0009066  4.46e-05
      GO:0019299  4.6e-05
      GO:0009067  6.13e-05
      GO:0019205  6.23e-05
      GO:0031090  6.64e-05

      Доверяем тем GO, которые мы выделили (после них идет скачок P-value). Опишем их:

       GO:0016301 - киназная активность.                                           Онтология :   molecular function;
       GO:0005886 - плазматическая мембрана.                                       Онтология :   cellular component;
       GO:0005515 - связывание белков.                                             Онтология :   molecular function;
       GO:0016773 - фосфотрансферазная активность, спиртовая группа как акцептор.  Онтология :   molecular function;
       GO:0015291 - вторичная трансмембранная активность.                          Онтология :   molecular function;
       GO:0016772 - трансферазная активность, перенос фосфор-содержащих групп.     Онтология :   molecular function.

      Мой белок P0A7B3 был найден только в 6 GO-терминах (GO:0003951 (NAD+ киназная активность), GO:0005737 (цитоплазма), GO:0008152 (метаболический процесс), GO:0016301 (киназная активность), GO:0016740 (трансферазная активность), GO:0046872 (связывание иона металла)). Но в описанных выше он встречается только в одном (выделен).



©Пискунова Юлия 2010