Герб ФББ
  • Главное
  • Семестры
  • Обо мне
  • Официальный сайт ФББ МГУ

    Практикум 6. Базы данных KEGG, GO и другие


    Описание входных данных

    Для анализа мне был предложен набор из 14 генов: ALAS2, FECH, ALAS1, UROS, CPOX, PPOX, ALAD, HMBS, ALB, UROD, COX15, FLVCR1, ABCG2, COX10

    Я провела анализ информации, полученной на UniProt, о белках, кодируемых генами выше, и выяснила, что в основном эти гены связаны с биосинтезом, транспортом и утилизацией гема – важнейшего кофактора, участвующего в кислородном обмене, клеточном дыхании и детоксикации. Основная и общая функция:

    • Гены регулируют разные этапы синтеза гема, от образования его предшественников (ALAS1, ALAS2, ALAD, HMBS, UROS, UROD, CPOX, PPOX, COX10, COX15) до его транспорта (FLVCR1, ABCG2) и интеграции в белки (FECH). Кроме того, ALB участвует в переносе различных молекул, включая производные гема.

    Ссылка на список генов.

    Go

    База данных GO (Gene Ontology) - это база данных, которая стандартизовано описывает функции генов и их продуктов (белков) у различных организмов через 3 аспекта: молекулярная функция, биологический процесс, клеточный компонент.

    Ключевые особенности GO:

    • Универсальность: применяется для всех организмов
    • Иерархическая структура: термины организованы в виде графа
    • Аннотации: гены связываются с терминами GO на основе экспериментальных данных или предсказаний.

    Чтобы провести анализ обогащения терминами с помощью Gene Ontology я вписала свои IDs в поле на сайте базы данных, выбрала тип теста - Фишер и поправку Бонферрони на множественную проверку гипотез.

    Ссылка на выдачу Gene Ontology отсортированная по p-value.

    Выдача blast
    Рис. 1. Выдача Go.

    На Рис. 1. можно увидеть, что в выдачу попали 24 находок. Наблюдается исключительно сильное обогащение терминами, связанными с:

    • Биосинтезом гема (8 терминов, FE>100, p<1E-22)
    • Метаболизмом порфиринов (6 терминов, FE>100, p<1E-25)
    • Тетрапирроловым обменом (5 терминов, FE>100, p<1E-24)

    11 терминов с FE>100 указывают на абсолютную специфичность данных процессов для исследуемых генов. Низкие p-value (до 1E-30) подтверждают достоверность. Результаты GO-анализа полностью согласуются с аннотациями генов в UniProt, что подтверждает высокую точность классификации функциональных терминов в Gene Ontology

    Human Protein Atlas

    Human Protein Atlas (HPA) — это масштабная база данных, объединяющая информацию о локализации, экспрессии и функциях всех белков человека. Она предоставляет данные об их распределении в нормальных и опухолевых тканях, субклеточной локализации, а также прогностической значимости для различных заболеваний. HPA интегрирует транскриптомные и протеомные данные, дополняя их микроскопическими изображениями и клиническими ассоциациями, что делает её ключевым ресурсом для биомедицинских исследований.

    Рассмотрим ген COX10

    Выдача blast
    Рис. 2. Локализация экспрессии гена COX10

    На Рис. 2. можно видеть, что экспрессия РНК происходит во всех органах, но максимальная экспрессия происходит в проксимальном отделе пищеварительного тракта, а именно в большей степени в языке, и мышечных тканях, а если точнее - в сердечных и скелетных мышцах. Касаемо белков можно сказать, что экспрессия белков почти также происходит во всех органах, но за исключением глаза. Максимальная экспрессия белков происходит в почках и мочевом пузыре, в дыхательной системе (в основном в легких) и в мозгу, в органах женской и мужской половой системы.

    Выдача blast
    Рис. 3. Локализация экспрессии белков, кодируемых COX10 - гистограмма

    Рис. 3. представляет собой гистограмму, на котором можно удобно проанализировать уровень экспрессии продуктов (белков) гена COX10. В основном это гиппокамп, легкие, почки, яичко, придаток яичка и плацента.

    Вывод

    Анализ генов, связанных с синтезом и транспортом гема, в базах данных GO и UniProt подтвердил их ключевую роль в биосинтезе гема (GO: p-value ≤ 1.45E-22) и показал широкую тканевую специфичность экспрессии (например, COX10 — максимальная активность в почках, лёгких и мозге). Данные GO выявили обогащение терминами, связанными с метаболизмом гема и пигментов, а UniProt предоставил детали о локализации и функциях белков. Вместе эти базы данных позволили системно охарактеризовать гены и их биологическую значимость.