Работа с базой данных KEGG

Анализ обогащения списка генов

Вся работа выполнялась с помощью языка программирования R.
Список генов, их символьные обозначения и Entrez ID показаны в табл. 1.
ID генов были переведены в Entrez ID, после чего проводился анализ обогащения биологическими путями из базы данных KEGG с помощью точного теста Фишера.
Файл скрипта формата R доступен по ссылке.
Скрипт скачивает все доступные биологические пути в базе данных KEGG, описанные для человека, их оказалось 186. Из этих биологических путей список генов оказался обогащен только путем KEGG_TERPENOID_BACKBONE_BIOSYNTHESIS (ссылка на аннотацию пути в KEGG), adjusted p-value = 2.8e-05. 14 из 15 выбранных генов являются генами, участвующими в этом пути.

Данный результат означает, что анализируемый список генов значимо пересекается со списком генов, вовлеченных в синтез остова различных терпеноидов (у человека это мевалонатный путь).
Если все гены из анализируемого списка вовлечены в какой-либо процесс, то полученный результат означал бы связь этого процесса с синтезом терпенов.
Если большая часть генов (но не все) ассоциирована с синтезом терпенов (мы наблюдаем это из результатов анализа обогащения) и все гены в списке связаны между собой неизвестной функцией, то можно было бы предполагать, что этой неизвестной функцией является синтез терпенов. Другими словами, это означало бы, что обнаружены новые гены, ассоциированные с синтезом терпенов.
Таблица 1. Соответствие символьных обозначений генов и их Entrez ID
Gene name Entrez ID
CHURC1-FNTB 100529261
COQ2 27235
COQ3 51805
COQ5 84274
COQ6 51004
COQ7 10229
FNTA 2339
FNTB 2342
HMGCS2 3158
ICMT 23463
NQO1 1728
PCYOX1 51449
PDSS1 23590
PDSS2 57107
ZMPSTE24 10269