В рамках задания данного практикума мне был любезно предоставлен следующий список ID генов человека. В наборе всего 6 генов: HSD17B1, HSD17B2, AKR1B15, HSD17B14, HSD17B11, CYP19A1, данные аббревиатуры ни о чем мне не говорят, поэтому моя задача следующая: с помощью специальных баз данных и сервисов выяснить, что это за гены и что их может объединять. Итак, приступим.
База данных GO и анализ обогащения терминами (GSEA)
Для начала необходимо в принципе понять, что может функционально объединять данные гены. Для этого воспользуемся базой данных GO и проведем анализ обогащения терминами. База данных GO (Gene Ontology) - ориентированный ациклический граф биологических терминов (узлы этого графа называются GO терминами), где каждый термин связан с одними или несколько другими терминами через различного типа отношения (ребра графа). В GO существуют три основных независимых группы терминов (так называемые aspects):
Молекулярные функции (Molecular Function, MF) - специфическая функция генного продукта на молекулярном уровне, например каталитическая и транспортная активности.
Биологические процессы (Biological Process, BP) - комплексные явления, необходимые для жизнедеятельности организмов и происходящие благодаря последовательности молекулярных функций, например репарация ДНК, биосинтез цитозина.
Клеточные компоненты (Cellular Component, CC) - часть клетки или внеклеточного пространства, где продукт гена осуществляет свою функцию, например, митохондрия или плазматическая мембрана.
Каждый термин GO имеет ряд атрибутов (уникальный ID, группа, к которой относится, и т.д.). Помимо этого в GO содержатся аннотации (утверждения, связывающие продукт гена с конкретными GO терминами на основе фактических данных) для получения информации о продуктах гена и соответственно функциях, а также различные инструменты и сервисы GO, которые позволяют запрашивать, находить и визуализировать термины GO и аннотации генных продуктов. Среди таких сервисов есть PANTHER - большая база данных генов и белковых семейств для классификации функционального спектра генных продуктов. Данный сервсис позволяет провести статистические тесты и анализ обогащения терминами для нахождения общих биологических функциях поданных на вход пользователем генов и получения информации по всем трем аспектам для них. Именно этим мы и воспользуемся для нашего списка генов. Для этого переходим на сайт базы данных и в специальное окно GO Enrichment Analysis вставляем список ID наших генов, после чего нажимаем на кнопку Launch. После чего нас перекидывает на сайт PFNTHER, где мы можем провести нужный нам анализ.
Прежде всего необходимо установить параметры запуска анализа. На Рис. 1 показан данный процесс (в качестве статистического метода везде использовался тест Фишера, в качестве поправки на множественное тестирование расчитывался FDR (False Discovery Rate)). Анализ проводился 3 раза, соответственно по всем трем главным категориям MF, BP, CC (аспектам, параметр Annotation Data Set).
Рис. 1. Установленные параметры для запуска анализа обогащения терминами (для всех 3 аспектов были взяты именно такие, здесь изображено для аспекта MF).
Протоколы и результаты анализа оказались следующими:
Для аспекта MF в выдаче оказалось 5098 терминов, полную выдачу можно посмотреть в таблице здесь. На Рис. 2 показаны наиболее значимые находки (те, у которых p-value после поправки оказался меньше 0.05), таковых оказалось 11 штук. Видно, что продукты данных 6 генов объединяет оксидоредуктазная активность, а также 5 генов объединяет стероидная дегидрогеназная активность (катализ ОВР-реакций стерола и его производных) и активность дегидрогеназы 17-бета эстрадиола, где в качестве акцептора используется NAD(P)+ (катализ оксиления эстрадиола до эстрона), также некоторые специализируются на оксилении тестостерона.
Рис. 2. Наиболее значимые находки для анализа по аспекту MF (отсортированы по значению FDR).
Для аспекта BP в выдаче оказалось 14872 термина, полную выдачу можно посмотреть в таблице здесь. На Рис. 3 показаны наиболее значимые находки, здесь их 19. ВидноЮ что данные гены являются участниками следующих важных биологических процессов: метаболизм стероидов и их производных, биосинтез различных стреоидных гормонов (преимущественно эстрогена, также тестостерона и андрогена).
Рис. 3. Наиболее значимые находки для анализа по аспекту BP (отсортированы по значению FDR).
Для аспекта CC в выдаче оказалось 1996 терминов, выдачу можно посмотреть здесь. Значимых находок приэтом не оказалось, из этого можно сделать вывод, что видимо продукты данных генов осуществляют свои функции в разных местах в клетках и организме человека. В целом данный аспект не сильно беспокоит, поскольку целью было узнать именно функции генов, нежели локализацию (это была своего рода попытка найти дополнительную информацию про набор).
Исходя из всего вышеперечисленного можно утверждать, что продукты данных генов являются ферментами, которые катализируют ОВР-реакции в метаболизме стероидных производных, главным образом гормона эстрогена, однако в это описание хорошо вписываются лишь 5 генов (судя по данным выдачей). Пройдя по различным ссылкам в выдачах можно узнать, что гены с HSD - это дегидрогеназы 17-бета гидроксистероидов (для эстрадиола в частности HSD17B11), AKR1B15 - альдо-кеторедуктаза, CYP19A1 - ароматаза.
База данных KEGG
Теперь уже имея некоторые сведения о данном наборе воспользуемся сервисом KEGG (Kyoto Encyclopedia of Genes and Genomes) - веб-ресурс (ссылка), предоставляющий доступ к ряду биологических баз данных
и инструментам для анализа биологических и медицинских данных. KEGG содержит 16 баз данных, для удобства все разделено на 4 категории:
Системная информация (Systems information) - данные о метаболических, регуляторных путях, модулях генов и классификация биологических явлений и объектов.
Геномная информация (Genomic information) - данные об отдельных генах, геномах различных существ, ортологах.
Химическая информация (Chemical information) - данные о малых молекулах, гликанах, информация о биохимических реакциях в живых организмах, номенклатура ферментов.
Информация, связанная со здоровьем человка (Health information) - данные о человеческих болезнях и о лекарствах.
KEGG также предоставляет много удобных инструментов для работы со своими базами данных и анализа информации. Нам потребуется база данных KEGG PATHWAY из категории системная информация, конкретно нас будет интересовать метаболический путь Steroid hormone biosynthesis, чтобы узнать поподробнее о месте продукта каждого гена в биосинтезе стероидов, а также выявить возможного лишнего. Проанализировав этот путь, а также краткую информацию о каждом гене из набора, которую можно получить из поискового инструмента KEGG, можно получить следующие результаты:
Продукт гена CYP19A1 является довольно важным участником биосинтеза стероидных гормонов, код фермента 1.14.14.14 (ароматаза). На Рис. 4 реакции, катализируемые им, выделены фиолетовым цветом, как видно он катализирует несколько реакций превращений тестестерона в 17-бета эстрадиол, а также несколько реакций превращения андростендиона в эстрон, занимая довольно-таки центральное место в данном метаболическом пути.
Рис. 4. Место продуктов данных генов в биосинтезе стероидных гормонов (фиолетовым выделен фермент CYP19A1, красным ферменты HSD17B1, HSD17B2).
Продукты генов с HSD также являются важными участниками биосинтеза стероидных гормонов. На Рис. 4 красным цветом выделены ферменты с кодом 1.1.1.62 (это продукты генов HSD17B1 и HSD17B2), видно что они отвечают за реакции ОВР-превращений эстрона в 17-бета эстрадиол, эстриола в 16-альфа гидроксиэстрон, а также 11-бета андростендиона в 11-бетагидрокситестестерон. Продукт гена HSD17B11 (код 1.1.1.- на Рис. 4) катализирует лишь одну реакцию превращения андростандиола в андростерон (смотри реакцию на Рис. 5). Все трое ферментов используют NAD в качестве кофактора. Полноценной информации про продукт гена HSD17B14 нет, кроме того, что он как и прошлые 3 фермента этой группы является дегидрогеназой 17-бета гидроксистероидов.
Рис. 5. Реакция, катализируемая продуктом гена HSD17B11 (снизу НАД, справа андростерон, слева андростандиол).
А вот продукт гена AKR1B15 выбивается из этой общей схемы. Как можно видеть из его "информационной карточки" в базе KEGG на Рис. 6, данный фермент участвует в других метаболических путях, таких как
биосинтез фолата, метаболизме сахаров (фруктозы, глюкозы, маннозы) и глицеролипидов. Приэтом данный фермент является альдо-кето редуктазой (код 1.1.1.21), и на Рис. 4 видно, что в биосинтезе стероидных гормонов участвуют ферменты с похожей активностью (например, AKR1C2), но не конкретно этот.
Рис. 6. Основная информация о продукте гена AKRB1B15 из базы KEGG.
Заключение
Предоставленные для анализа гены не являются случайным набором, по крайней мере 5 из низ связаны функционально, а именно тем, что их продукты - это оксидоредуктазы, катализирующие одни из ключевых реакций в биосинтезе стероидных гормонов (конкретно эстрона, эстрадиола, эстриола, андростерона и тестестерона - все это важные половые гормоны для человека). Один ген (AKR1B15) выбивается из этой категории и имеет отношения к другим метаболическим путям, приэтом его продукт тоже является оксидоредуктазой, а родственные ему ферменты также задействованы в биосинтезе стероидов.