KEGG Database

Вся работа выполнялась с помощью языка программирования R.
Список генов, их символьные обозначения и Entrez ID показаны в табл. 1.
ID генов были переведены в Entrez ID, после чего проводился анализ обогащения биологическими путями из базы данных KEGG с помощью точного теста Фишера.
Файл скрипта формата R доступен по ссылке.
Скрипт скачивает все доступные биологические пути в базе данных KEGG, описанные для человека, их оказалось 186. Из этих биологических путей список генов оказался обогащен только путем KEGG_TERPENOID_BACKBONE_BIOSYNTHESIS (ссылка на аннотацию пути в KEGG), adjusted p-value = 2.8e-05. 14 из 15 выбранных генов являются генами, участвующими в этом пути.

Данный результат означает, что анализируемый список генов значимо пересекается со списком генов, вовлеченных в синтез остова различных терпеноидов (у человека это мевалонатный путь).
Если все гены из анализируемого списка вовлечены в какой-либо процесс, то полученный результат означал бы связь этого процесса с синтезом терпенов.
Если большая часть генов (но не все) ассоциирована с синтезом терпенов (мы наблюдаем это из результатов анализа обогащения) и все гены в списке связаны между собой неизвестной функцией, то можно было бы предполагать, что этой неизвестной функцией является синтез терпенов. Другими словами, это означало бы, что обнаружены новые гены, ассоциированные с синтезом терпенов.

Таблица 1. Соответствие символьных обозначений генов и их Entrez ID

Gene name	Entrez ID
CHURC1-FNTB	100529261
COQ2	27235
COQ3	51805
COQ5	84274
COQ6	51004
COQ7	10229
FNTA	2339
FNTB	2342
HMGCS2	3158
ICMT	23463
NQO1	1728
PCYOX1	51449
PDSS1	23590
PDSS2	57107
ZMPSTE24	10269

Работа с базой данных KEGG

Анализ обогащения списка генов