Практикум 6

Вступление

В рамках задания данного практикума мне был любезно предоставлен следующий список ID генов человека. В наборе всего 6 генов: HSD17B1, HSD17B2, AKR1B15, HSD17B14, HSD17B11, CYP19A1, данные аббревиатуры ни о чем мне не говорят, поэтому моя задача следующая: с помощью специальных баз данных и сервисов выяснить, что это за гены и что их может объединять. Итак, приступим.

База данных GO и анализ обогащения терминами (GSEA)

Для начала необходимо в принципе понять, что может функционально объединять данные гены. Для этого воспользуемся базой данных GO и проведем анализ обогащения терминами. База данных GO (Gene Ontology) - ориентированный ациклический граф биологических терминов (узлы этого графа называются GO терминами), где каждый термин связан с одними или несколько другими терминами через различного типа отношения (ребра графа). В GO существуют три основных независимых группы терминов (так называемые aspects):

Каждый термин GO имеет ряд атрибутов (уникальный ID, группа, к которой относится, и т.д.). Помимо этого в GO содержатся аннотации (утверждения, связывающие продукт гена с конкретными GO терминами на основе фактических данных) для получения информации о продуктах гена и соответственно функциях, а также различные инструменты и сервисы GO, которые позволяют запрашивать, находить и визуализировать термины GO и аннотации генных продуктов. Среди таких сервисов есть PANTHER - большая база данных генов и белковых семейств для классификации функционального спектра генных продуктов. Данный сервсис позволяет провести статистические тесты и анализ обогащения терминами для нахождения общих биологических функциях поданных на вход пользователем генов и получения информации по всем трем аспектам для них. Именно этим мы и воспользуемся для нашего списка генов. Для этого переходим на сайт базы данных и в специальное окно GO Enrichment Analysis вставляем список ID наших генов, после чего нажимаем на кнопку Launch. После чего нас перекидывает на сайт PFNTHER, где мы можем провести нужный нам анализ.

Прежде всего необходимо установить параметры запуска анализа. На Рис. 1 показан данный процесс (в качестве статистического метода везде использовался тест Фишера, в качестве поправки на множественное тестирование расчитывался FDR (False Discovery Rate)). Анализ проводился 3 раза, соответственно по всем трем главным категориям MF, BP, CC (аспектам, параметр Annotation Data Set).

Рис. 1. Установленные параметры для запуска анализа обогащения терминами (для всех 3 аспектов были взяты именно такие, здесь изображено для аспекта MF).

Протоколы и результаты анализа оказались следующими:

Исходя из всего вышеперечисленного можно утверждать, что продукты данных генов являются ферментами, которые катализируют ОВР-реакции в метаболизме стероидных производных, главным образом гормона эстрогена, однако в это описание хорошо вписываются лишь 5 генов (судя по данным выдачей). Пройдя по различным ссылкам в выдачах можно узнать, что гены с HSD - это дегидрогеназы 17-бета гидроксистероидов (для эстрадиола в частности HSD17B11), AKR1B15 - альдо-кеторедуктаза, CYP19A1 - ароматаза.

База данных KEGG

Теперь уже имея некоторые сведения о данном наборе воспользуемся сервисом KEGG (Kyoto Encyclopedia of Genes and Genomes) - веб-ресурс (ссылка), предоставляющий доступ к ряду биологических баз данных и инструментам для анализа биологических и медицинских данных. KEGG содержит 16 баз данных, для удобства все разделено на 4 категории:

KEGG также предоставляет много удобных инструментов для работы со своими базами данных и анализа информации. Нам потребуется база данных KEGG PATHWAY из категории системная информация, конкретно нас будет интересовать метаболический путь Steroid hormone biosynthesis, чтобы узнать поподробнее о месте продукта каждого гена в биосинтезе стероидов, а также выявить возможного лишнего. Проанализировав этот путь, а также краткую информацию о каждом гене из набора, которую можно получить из поискового инструмента KEGG, можно получить следующие результаты:

Заключение

Предоставленные для анализа гены не являются случайным набором, по крайней мере 5 из низ связаны функционально, а именно тем, что их продукты - это оксидоредуктазы, катализирующие одни из ключевых реакций в биосинтезе стероидных гормонов (конкретно эстрона, эстрадиола, эстриола, андростерона и тестестерона - все это важные половые гормоны для человека). Один ген (AKR1B15) выбивается из этой категории и имеет отношения к другим метаболическим путям, приэтом его продукт тоже является оксидоредуктазой, а родственные ему ферменты также задействованы в биосинтезе стероидов.