Практикум 11

АНАЛИЗ ОБОГАЩЕНИЯ GO

Полученный список генов я решил проанализировать с помощью базы данных GO. Анализ проводил с помощью сервиса GENE ONTOLOGY с опциями ''biological process'' и ''Homo sapiens''. После запуска меня перенаправило на сайт PANTHER и были использованы следующие настройки:

Analyzed List: upload_1 (Homo sapiens)
Reference List: Homo sapiens (all genes in database)
Annotation Data Set: GO biological process complete
Test Type: Fisher's Exact
Correction: Calculate False Discovery Rate

Все ID (22) прошли анализ обогощения. Далее я отсортировал выдачу по поправленному p-value так, чтобы наверху оказались самые значимые находки (нажав 2 раза на аннотацию FDR). Затем я взял 5 самых значимых GO terms (рис. 1). Им соответствуют следующие GO ID: GO:0006023, GO:0006022, GO:0018146, GO:0042339, GO:0006024.

Также ниже представлено описание каждой колонки в выдаче.

Sorry!
Рисунок 1. Выдача GO анализа. Приведён список десяти самых значимых GO terms с 5 выбранными GO terms.
Название колонки и номер GO biological process complete (1) # (2) # (3) expected (4) Fold Enrichment (5) +/- (6) P value (7)
Описание Название группы генов, вовлечённых в некий биологический процесс Количество всех генов из референсного списка генов (все гены в выбранном организме), участвующих в данном процессе Количество генов, участвующих в этой категории аннотации данных, из загруженного списка генов Количество генов, которое можно было бы ожидать в рамках данной категории из загруженного списка. Считается на основе референсного набора генов Отношение числа генов из списка, встретившихся в группе, к ожидаемому числу генов Перепредставленность (+, Fold Enrichment > 1), недопредставленность (-, Fold Enrichment < 1) P-value, определённое точным тестом Фишера (в моём случае) или биномиальным распределением (при выбранной другой опции)

Далее я визуализировал их на графе (рис. 2) с помощью сервиса Gene Ontology and GO Annotations, вставив в графе Basket GO ID и нажав на значок весов.

Sorry!
Рисунок 2. Граф, построенный по 5 значимым GO terms,с помощью QuickGO. 5 самых значимых GO terms выделены жёлтым.

Все анализируемые GO terms являются процессами метаболизма макромолекул. Все ветви напрямую связаны друг с другом, между приведенными на рисунке узлами имеются только "is a" отношение, то есть узлы более высокого уровня в любом выбранном на графе пути кодируют процессы, обобщающие процессы, кодируемые узлами более низкого уровня. Процесс биосинтез кератансульфата является процессом одновременно биосинтезом гликозаминогликанов и процессом метаболизма кератансульфата. Процессом биосинтеза гликозаминогликанов является процесс биосинтеза аминогликанов. А процессы биосинтеза аминогликанов и метаболизма кератансульфата являются процессом метаболизма аминогликанов. Три выбранные GO категории представляют самые глубокие узлы графа (процессы биосинтеза кератансульфата и гликозаминогликанов и процесс метаболизма кератансульфата) и более точно описывают процессы частично характеризующие набор белков с данными ID, остальные две выбранные GO категории кодируют более общие процессы (биосинтез и метаболизма аминогликанов) и боллее обще описывают процессы всего набора белков с данными ID.