Поиск сигналов. Chip-seq


Цель: Определите сайты связывания данного транскрипционного фактора в данном участке хромосомы человека

Контроль качества чтений

Для анализа мне достался один из многих участков хромосомы, полученных после ChiP-seq эксперимента. Он находится в файле chipseq_chunk23.fastq.

Я проанализировал его с помощью программы fastqc (установлена на kodomo):

fastqc chipseq_chunk23.fastq

Рис. 1 результат анализа моего файла (качество рида)

Результат показал, что чтения чистить не надо, т.к. значения находятся в пределах приемлемых значений (зеленая зона). Полный анализ в html формате можно найти тут.


Картирование прочтений на геном человека hg19

Картирование прочтений на геноме человека hg19 осуществлялось с помощью программы BWA.

bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk23.fastq > chipseq_chunk23.sam

Далее рядом команд данные были преобразованы в вид, пригодный для понимания.

samtools view chipseq_chunk23.sam -bSo chipseq_chunk23.bam - файл с выравниванием переводится в бинарный формат .bam 
samtools sort chipseq_chunk23.bam -T chip_temp -o chipseq_chunk23_sort.bam - сортирует выравнивание ридов и референса по координате рида в референсе 
samtools index chipseq_chunk23_sort.bam - полученный файл сортируется
samtools idxstats chipseq_chunk23_sort.bam > count.out - считает, сколько ридов откартировалось

В результате 7095 прочтений откартировались на 10-ую хромосому (? процентов?), что говорит о том, что изучать мне дали именно её.

Поиск пиков (Peak calling)

Для поиска пиков будет использовать программы MACS

macs2 callpeak -n chipseq_chunk23 -t chipseq_chunk23_sort.bam --nomodel

В результате было получено 3 файла: chipseq_chunk23_summits.bed, chipseq_chunk23_peaks.xls, chipseq_chunk23_peaks.narrowPeak.

Всего было найдено 10 пиков. Далее я визуализировал пики сервисом UCSC Genome Browser, загрузив в него следующий модифицированный файл: в файле chipseq_chunk23_peaks.narrowPeak первая строка была дополнена строкой:

track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 23" 
browser position chr10:80733322-81288266

Рис.2. Визуалиция в UCSC Genome Browser пиков


Таблица 1. Характеристики пиков

НомерКоординатыДлинаВершина пика -log10(p-value)
180733322 - 807336082878073345341.741
280779694 - 807800163238077985121.833
380828619 - 808288382208082865812.007
480911552 - 809117522018091160214.750
580917337 - 809176342988091747037.393
680938644 - 809389503078093879015.354
780999134 - 809993342018099926117.219
881058548 - 810587622158105866616.277
981200463 - 812007693078120059814.729
1081288047 - 812882662208128812318.122

Каждому найденному пику соответствует число -log10(p-value), по которому можно оценить достоверность находки. Более высокие значения этого показателя означают более низкий p-value, а значит более высокую достоверность находки. Рассмотрим в более крупном масштабе пики с наименьшим p-value (номера 3 и 7 в Таблице 1):

Рис. 3. Пик 3 в более крупном масштабе

Рис. 4. Пик 7 в более крупном масштабе


Ген ZMIZ1 кодирует белок содержащий домен с цинковым палецем.


на главную

© Гавриш Глеб 2017