• Главная
  • Семестры
    • Первый семестр
    • Второй семестр
    • Третий семестр
    • Четвертый семестр
ФББ МГУ

Практикум 6. Базы данных KEGG, GO и другие

1. Входные данные

Входные данные предствляют собой список ID генов человека. Всего в списке 58 генов. На первом этапе работы выполнили анализ обогащения терминами, направленный на идентификацию значимых биологических процессов, молекулярных функций и клеточных компонентов, связанных с исследуемыми генами. На втором этапе проанализировали участие этих генов в метаболических путях, что позволило установить их функциональные взаимодействия.


2. База данных GO и анализ обогащения терминами

Gene Ontology (GO) — это крупнейшая база данных, которая:


Стандартизирует описание функций генов через три аспекта:

Биологические процессы (например, метаболизм липидов, передача сигналов).

Молекулярные функции (например, связывание ДНК, каталитическая активность).

Клеточные компоненты (например, ядро, мембрана).


Позволяет проводить анализ обогащения терминами.

Для проведения анализа был использован точный тест Фишера, который позволяет определить статистическую значимость перепредставленности конкретных GO-терминов в исследуемом наборе генов по сравнению со случайным распределением. Чтобы минимизировать вероятность ложноположительных результатов при множественном тестировании, была применена поправка Бонферрони. В качестве референсного набора использовались все аннотированные гены человека из базы данных.(Рис.1)

Отфильтрованные по р-значению результаты представлены в таблице и на Рис.2

Рис. 1 Параметры для запуска анализа обогащения терминами
Рис. 2 Результат анализа обогащения (первые 23 строчки)

Проведённый GO-анализ выявил ассоциацию исследуемых генов с метаболизмом сфинголипидов и гликолипидов. Наиболее значимые результаты включают обогащение таких процессов, как метаболизм гликосфинголипидов (p=1.71×10⁻⁷⁵) и сфинголипидов (p=4.23×10⁻⁷²), что свидетельствует о специализации этих генов на синтезе и распаде сложных липидов. Также обнаружена значимая связь с процессами катаболизма липидов и метаболизмом углеводных производных. Полученные данные показывают, что анализируемые гены согласованно функционируют для липидного обмена.


3. База белок-белковых взаимодействий STRING

База данных STRING позволяет найти некоторые взаимосвязи между белками (используя информацию из других баз данных) и выражает их в форме графа. Загрузили наши ID в STRING. Для разбиения на кластеры я использовала алгоритм MCL clustering, который находит оптимальное число кластеров и по ним распределяет все белки.

Анализ в STRING выявил четкую функциональную организацию белков. Сеть разделилась на 4 кластера: основной (19 генов) - метаболизм сфинголипидов, второй (15 генов) - метаболизм гликосфинголипидов, третий (13 генов) - активация арилсульфатаз (ферментов, участвующих в деградации гликозаминогликанов), четвертый (8 генов) - биосинтез олигосахаридов и процессы сиалирования. Полученный граф представлен на Рис. 3, на Рис. 4 представлена таблица по кластерам.

Рис. 3 Кластеры белков
Рис. 4 Описание кластеров

GO-анализ подтвердил сильное обогащение липидными путями: метаболизм гликосфинголипидов, сфинголипидов и ганглиозидов (Рис. 5 и 6) .

Рис. 5 Функциональное обогащение таблица
Рис. 6 Функциональное обогащение визуализация

Гены преимущественно локализованы в лизосомальном просвете (15 генов из 97), мембране Гольджи (21 ген из 664) и вакуоли. Рис. 7

Рис. 7 Основные клеточные компартменты, связанные с нашими генами

Анализ выявил значимое обогащение следующих метаболических путей: Метаболизм сфинголипидов (23 гена из 47 возможных); Биосинтез ганглиозидов (9 генов из 14); Лизосомальные функции (17 генов из 125); Деградация гликанов Рис. 8.

Рис. 8 Основные клеточные пути, связанные с нашими генами

4. База данных KEGG

KEGG (Kyoto Encyclopedia of Genes and Genomes) — это комплексная платформа, объединяющая данные о:

- Генах и геномах (KEGG GENES): Аннотированные гены и белки для тысяч организмов. Связи между генами, ферментами и метаболическими путями.

-Метаболических путях (KEGG PATHWAY) Метаболизм. Сигнальные пути. Клеточные процессы.

-Болезнях (KEGG DISEASE) Ассоциации генов с заболеваниями. Механизмы патогенеза и потенциальные мишени для терапии.

-Лекарствах (KEGG DRUG) База лекарственных препаратов с мишенями и путями действия.

-Организмах (KEGG ORGANISM) Сравнительная геномика: консервативные пути у разных видов.

Рассмотрим карту map00600 (Сфинголипидный метаболизм). На Рис.9 подписаны гены из нашего исходного списка, одинаковыми цветами выделены одинаковые гены. Всего 13 генов из 58.

На Рис. 10 представлены реакции синтеза GM1-ганглиозида (одна из ветвей в нижнем левом углу на Рис.9)


Рис. 9 Карта метаболизма сфинголипидов
Рис. 10 Реакции синтеза GM1-ганглиозида

5. Итог

Проведенные анализ выявили, что исследуемые гены вместе специализируются на метаболизме сложных липидов - сфинголипидов и гликолипидов. Эти гены кодируют ключевые ферменты синтеза и распада липидных молекул, обеспечивая поддержание липидного гомеостаза в клетках. Наибольшая активность наблюдается в лизосомальных путях, где происходит деградация липидов.