Kodomo

Пользователь

Tutorial по эпигенетике для курса NGS

Практическая часть посвящена использованию инструмента NGSplot, который позволяет рисовать профили различных эпигенетических модификаций, доступности хроматины, экспрессии и т.д. относительно отрезков в геноме, таких как гены, экзоны, старты транскрипции или любые другие заданные отрезки. Рисование таких усредненных профилей и хитмэпов является очень распространенной задачей прианализе эпигенетических данных и не только (см. иллюстрации из статей в лекции). NGSplot удобен ещё и тем, что позволяет на вход давать bam файл, а не результат дальнейшего анализа (такого как поиск пиков).

Справка: https://github.com/shenlab-sinai/ngsplot/blob/develop/README.md http://www.biomedcentral.com/1471-2164/15/284

Usage: ngs.plot.r -G genome -R region -C [cov|config]file
                  -O name [Options]
## Mandatory parameters:
  -G   Genome name. Use ngsplotdb.py list to show available genomes.
  -R   Genomic regions to plot: tss, tes, genebody, exon, cgi, enhancer, dhs or bed
  -C   Indexed bam file or a configuration file for multiplot
  -O   Name for output: multiple files will be generated

tss, tes, genebody, exon, cgi, enhancer, dhs or bed

Входные файлы в формате bam лежат тут:

~/epigenetics/data/

Усредненные профили модификаций гистонов у старта транскрипции

Нарисуем профиль одной модификации (H3K4me3) около старта транскрипции

ngs.plot.r -G hg19 -R tss -C ~/epigenetics/data/wgEncodeOpenChromDnaseGm12878AlnRep2.bam -O H3K4me3_tss_v1

2. Добавим к графику вторую модификацию (H3K4me3) для этого создадим конфигурационный файл config_H3K4_me1_me3.txt

~/epigenetics/data/wgEncodeBroadHistoneGm12878H3k04me1StdAlnRep1V2.bam  -1      "H3K4me1"
~/epigenetics/data/wgEncodeBroadHistoneGm12878H3k4me3StdAlnRep2.bam     -1      "H3K4me3"

Запуск NGS plot для разных регионов (около tss и энхансеры).

ngs.plot.r -G hg19 -R tss -C  config_H3K4_me1_me3.txt -O H3K4_TSS
ngs.plot.r -G hg19 -R enhancer -C  config_H3K4_me1_me3.txt -O H3K4_enhancer

Учтем input (через ':'). Изменим конфигурационный файл

~/epigenetics/data/wgEncodeBroadHistoneGm12878H3k04me1StdAlnRep1V2.bam:~/epigenetics/data/wgEncodeBroadHistoneGm12878ControlStdAlnRep1.bam      -1      "H3K4me1"
~/epigenetics/data/wgEncodeBroadHistoneGm12878H3k4me3StdAlnRep2.bam:~/epigenetics/data/wgEncodeBroadHistoneGm12878ControlStdAlnRep1.bam -1      "H3K4me3"

Задачи:

Все данные тут: ~/epigenetics/data

* Профили покрытия H3K36me3 относительно тела генов и относительно экзонов. wgEncodeBroadHistoneGm12878H3k36me3StdAlnRep1.bam

* Распределение покрытия данных RNA-seq относительно тела гена? Есть ли перекос в сторону 3' конца? wgEncodeCaltechRnaSeqGm12878R1x75dAlignsRep1V2.bam

* Экспрессия РНК в топологических доменах. Сильнее ли транскрипция в середине домена или у его краёв? Домены: domains.bed Экспрессия wgEncodeCaltechRnaSeqGm12878R1x75dAlignsRep1V2.bam

Подсказка: Для использования вашего собственного набора участков генома в формате bed (напр., file.bed) можно использовать флаги -R bed -E file.bed

* Плотность CTCF в топологических доменах. Сосредоточены ли сайты CTCF в середине домена или у его краёв? Домены: domains.bed CTCF wgEncodeBroadHistoneGm12878CtcfStdAlnRep1.bam

* (Дополнительно) Переделать файл с доменами так, чтобы он содержал не домены, а их границы - короткие участки вокруг границ. Посмотреть на рпспределение сигнала экспрессии и/или CTCF вокруг границ.