Kodomo

Пользователь

Gene Ontology

Файлы с генами берем тут: demo1.txt

Устанавливаем, если необходимо, нужные пакеты:

source("https://bioconductor.org/biocLite.R")
biocLite("org.Hs.eg.db")
biocLite("GOFunction")

Подключаем библиотеки

library(org.Hs.eg.db)
library(GOFunction)
library(ggplot2)

org.Hs.eg.db - полезная база данных для преобразования идентификаторов генов. Смотрим, что в ней есть:

keytypes(org.Hs.eg.db)
columns(org.Hs.eg.db)

Читаем файл с генами:

geneNames<-read.table("demo1.txt", sep="\t", header=T)

head(geneNames)

Здесь идентификатор Symbol.

geneNames<-geneNames[,2]

Для GoFunction нам нужен ENTREZID. Преобразуем идентификаторы.

geneIDs <- select( org.Hs.eg.db,keys=as.character(geneNames), columns=c('ENTREZID'), keytype='SYMBOL' )
geneIDs <- geneIDs[,2]

Для определения перепредставленности в качестве фона берем все гены генома

refgeneIDs <-keys(org.Hs.eg.db, keytype="ENTREZID")

Ищем перепредставленные термы:

sigTerm <- GOFunction(geneIDs, refgeneIDs)
sigTerm

Построим barplot для графического представления наших результатов:

ggplot(sigTerm, aes(x=name, y=-log10(adjustp))) +
  geom_bar(stat="identity") +
  coord_flip() + 
  theme(axis.title.y=element_blank())

Задание: (2 балла) Найти перепредставленные категории GO для дифференциально экспрессирующихся генов, полученных при анализе данных рака молочной железы (туториал предыдущего занятия). Дифференциально экспрессирующимися считать гены, прошедшие порог на скорректированное p-value 0.01. Весь анализ, включая поиск дифференциально экспрессирующихся генов, оформить в виде отчета и показать.