Gene Ontology
Файлы с генами берем тут: demo1.txt
Устанавливаем, если необходимо, нужные пакеты:
source("https://bioconductor.org/biocLite.R") biocLite("org.Hs.eg.db") biocLite("GOFunction")
Подключаем библиотеки
library(org.Hs.eg.db) library(GOFunction) library(ggplot2)
org.Hs.eg.db - полезная база данных для преобразования идентификаторов генов. Смотрим, что в ней есть:
keytypes(org.Hs.eg.db) columns(org.Hs.eg.db)
Читаем файл с генами:
geneNames<-read.table("demo1.txt", sep="\t", header=T) head(geneNames)
Здесь идентификатор Symbol.
geneNames<-geneNames[,2]
Для GoFunction нам нужен ENTREZID. Преобразуем идентификаторы.
geneIDs <- select( org.Hs.eg.db,keys=as.character(geneNames), columns=c('ENTREZID'), keytype='SYMBOL' ) geneIDs <- geneIDs[,2]
Для определения перепредставленности в качестве фона берем все гены генома
refgeneIDs <-keys(org.Hs.eg.db, keytype="ENTREZID")
Ищем перепредставленные термы:
sigTerm <- GOFunction(geneIDs, refgeneIDs) sigTerm
Построим barplot для графического представления наших результатов:
ggplot(sigTerm, aes(x=name, y=-log10(adjustp))) + geom_bar(stat="identity") + coord_flip() + theme(axis.title.y=element_blank())
Задание: (2 балла) Найти перепредставленные категории GO для дифференциально экспрессирующихся генов, полученных при анализе данных рака молочной железы (туториал предыдущего занятия). Дифференциально экспрессирующимися считать гены, прошедшие порог на скорректированное p-value 0.01. Весь анализ, включая поиск дифференциально экспрессирующихся генов, оформить в виде отчета и показать.