Домашнее задание

Функциональная аннотация результатов анализа дифф экспрессии

Автор

Анна Валяева

Дата публикации

12 ноября 2025 г.

Задания

В этом домашнем задании вы будете продолжать работать с данными РНК-секвенирования из статьи Li, L., Freitag, J., Asbrand, C. et al. Multi-omics profiling of collagen-induced arthritis mouse model reveals early metabolic dysregulation via SIRT1 axis. Sci Rep 12, 11830 (2022). https://doi.org/10.1038/s41598-022-16005-9.

В этой статье изучали прогрессирование ревматоидного артирита, используя модель коллаген-индуцированного артрита (CIA) у мышей. Секвенирование РНК проводили на нескольких временных точках в контрольной группе (Ctrl) и группе мышей с артритом (CIA).

Задание 0

Вспомните, что вы делали в домашнем задании №10.

В качестве результатов вы должны были получить значения \(log_{2}FoldChange\) и значения \(p-value\), поправленных на множественное тестирование (padj).

Загрузите эти результаты в виде датафрейма.

Задание 1

Проведите анализ обогащения GO-категориями с помощью GSEA. Визуализируйте результат с помощью дотплота - покажите отдельно категории, в которых обогащены гены, экспрессия которых была повышена, и гены, экспрессия которых была понижена.

Для визуализации вы можете воспользоваться функцией dotplot() из пакета enrichplot (подгружается вместе с clusterProfiler), которая на вход принимает объект, получаемый в результате работы функции gseGO() (и аналогичных), либо преобразовать объект с результатами GSEA в датафрейм и построить график самостоятельно с помощью ggplot2. Второй вариант будет удобнее для отрисовки двух графиков рядом, которые бы показывали активированные и подавленные клеточные процессы.

В случае GSEA к “активированным” генным категориям будут относится те категории, у которых значение NES (normalized enrichment score) положительное. Гены, ассоциированные с “активированными” категориями оказались перепредставлены в начале ранжированного списка генов - среди генов с высокими положительными \(log_{2}FoldChange\) В свою очередь, отрицательные значения NES показывают, что категория “подавлена”, то есть гены, входящие в нее, оказались в конце ранжированного списка - среди генов с отрицательными \(log_{2}FoldChange\)

Задание 2

Для идентифицированных дифф экспрессируемых генов проведите анализ перепредставленности путей KEGG с помощью ORA. Визуализируйте результат.