Tutorial по эпигенетике для курса NGS
Практическая часть посвящена использованию инструмента NGSplot, который позволяет рисовать профили различных эпигенетических модификаций, доступности хроматины, экспрессии и т.д. относительно отрезков в геноме, таких как гены, экзоны, старты транскрипции или любые другие заданные отрезки. Рисование таких усредненных профилей и хитмэпов является очень распространенной задачей прианализе эпигенетических данных и не только (см. иллюстрации из статей в лекции). NGSplot удобен ещё и тем, что позволяет на вход давать bam файл, а не результат дальнейшего анализа (такого как поиск пиков).
Справка: https://github.com/shenlab-sinai/ngsplot/blob/develop/README.md http://www.biomedcentral.com/1471-2164/15/284
Usage: ngs.plot.r -G genome -R region -C [cov|config]file -O name [Options] ## Mandatory parameters: -G Genome name. Use ngsplotdb.py list to show available genomes. -R Genomic regions to plot: tss, tes, genebody, exon, cgi, enhancer, dhs or bed -C Indexed bam file or a configuration file for multiplot -O Name for output: multiple files will be generated
tss, tes, genebody, exon, cgi, enhancer, dhs or bed
Входные файлы в формате bam лежат тут:
~/epigenetics/data/
Усредненные профили модификаций гистонов у старта транскрипции
Нарисуем профиль одной модификации (H3K4me3) около старта транскрипции
ngs.plot.r -G hg19 -R tss -C ~/epigenetics/data/wgEncodeOpenChromDnaseGm12878AlnRep2.bam -O H3K4me3_tss_v1
2. Добавим к графику вторую модификацию (H3K4me3) для этого создадим конфигурационный файл config_H3K4_me1_me3.txt
~/epigenetics/data/wgEncodeBroadHistoneGm12878H3k04me1StdAlnRep1V2.bam -1 "H3K4me1" ~/epigenetics/data/wgEncodeBroadHistoneGm12878H3k4me3StdAlnRep2.bam -1 "H3K4me3"
Запуск NGS plot для разных регионов (около tss и энхансеры).
ngs.plot.r -G hg19 -R tss -C config_H3K4_me1_me3.txt -O H3K4_TSS ngs.plot.r -G hg19 -R enhancer -C config_H3K4_me1_me3.txt -O H3K4_enhancer
Учтем input (через ':'). Изменим конфигурационный файл
~/epigenetics/data/wgEncodeBroadHistoneGm12878H3k04me1StdAlnRep1V2.bam:~/epigenetics/data/wgEncodeBroadHistoneGm12878ControlStdAlnRep1.bam -1 "H3K4me1" ~/epigenetics/data/wgEncodeBroadHistoneGm12878H3k4me3StdAlnRep2.bam:~/epigenetics/data/wgEncodeBroadHistoneGm12878ControlStdAlnRep1.bam -1 "H3K4me3"
Задачи:
Все данные тут: ~/epigenetics/data
* Профили покрытия H3K36me3 относительно тела генов и относительно экзонов. wgEncodeBroadHistoneGm12878H3k36me3StdAlnRep1.bam
* Распределение покрытия данных RNA-seq относительно тела гена? Есть ли перекос в сторону 3' конца? wgEncodeCaltechRnaSeqGm12878R1x75dAlignsRep1V2.bam
* Экспрессия РНК в топологических доменах. Сильнее ли транскрипция в середине домена или у его краёв? Домены: domains.bed Экспрессия wgEncodeCaltechRnaSeqGm12878R1x75dAlignsRep1V2.bam
Подсказка: Для использования вашего собственного набора участков генома в формате bed (напр., file.bed) можно использовать флаги -R bed -E file.bed
* Плотность CTCF в топологических доменах. Сосредоточены ли сайты CTCF в середине домена или у его краёв? Домены: domains.bed CTCF wgEncodeBroadHistoneGm12878CtcfStdAlnRep1.bam
* (Дополнительно) Переделать файл с доменами так, чтобы он содержал не домены, а их границы - короткие участки вокруг границ. Посмотреть на рпспределение сигнала экспрессии и/или CTCF вокруг границ.