Определение сайтов связывания транскрипционного фактора в участке хромосомы человека

Работала с файлом chipseq_chunk12.fastq с ридами Illumina, полученными в результате ChIP-seq эксперимента.

Сделала контроль качества прочтений с помощью программы FastQC.

fastqc chipseq_chunk12.fastq
Отчет report.html

Всего в файле 8325 ридов, качество чтений хорошее, нет необходимости в чистке с помощью Trimmomatic.

Рис. 1. Per Base Sequence Quality

Картировала прочтения на геном человека hg19 с помощью программы BWA. Провела анализ полученного файла

Для поиска пиков (peak calling) воспользовалась программой MACS.

При использовании команды:
macs2 callpeak -t chipseq_chunk12.sorted.bam
выдавала ошибка --- слишком мало пиков.

Запустила с другими параметрами:
macs2 callpeak -n chunk12 -t chipseq_chunk12.sorted.bam --nomodel

Получила три выходных файла:

Все они содержат информацию о найденных пиках. Наиболее полная информация представлена в файле chunk12_peaks.xls:

chr start end length abs_summit pileup -log10(pvalue) fold_enrichment -log10(qvalue) name
chr3 46441143 46441361 219 46441233 32.00 21.69714 7.89474 14.86425 chunk12_peak_1
chr3 46441776 46441975 200 46441896 26.00 15.73521 6.42857 9.24055 chunk12_peak_2
chr3 46448485 46448761 277 46448620 31.00 20.06465 7.37327 13.34609 chunk12_peak_3
chr3 46464159 46464461 303 46464290 47.00 42.43318 13.40782 35.03260 chunk12_peak_4
chr3 46550736 46550972 237 46550875 26.00 15.60623 6.36792 9.11946 chunk12_peak_5
chr3 46976977 46977286 310 46977125 59.00 56.10939 15.70681 46.64811 chunk12_peak_6
chr3 46988826 46989067 242 46988945 36.00 21.38397 6.92884 14.56614 chunk12_peak_7
chr3 46989533 46990017 485 46989660 36.00 20.80683 6.70290 14.00642 chunk12_peak_8
chr3 47018487 47018731 245 47018621 26.00 16.20140 6.65025 9.67664 chunk12_peak_9
chr3 47058618 47058842 225 47058739 20.00 14.05000 6.90789 7.72829 chunk12_peak_10

Найдено 10 пиков. Они расположены в одном регионе хромосомы 3. Чем выше показатели -log10pvalue и -log10qvalue, тем ниже соответствующие показатели p-value и q-value, а следовательно, тем достовернее пик. Наиболее достоверны пики 4 и 6, наименее достоверный - пик 10.

Визуализировала пики с помощью UCSC Genome Browser. Использовала файл chunk12_peaks.narrowPeak, предварительно добавив в него дополнительную информацию:
track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 12" browser position chr3:46441000-47059000

Рис. 2. Визуализация пиков в UCSC Genome Browser ссылка

Рассмотрим подробнее один из наиболее достоверных пиков --- пик 6.

Этот пик пересекает ген CCDC12 с координатами chr3:46,963,220-47,023,500. Данный ген кодирут белок, входящий в состав сплайсосомы.

Другой достоверный пик --- пик 4. Не пересекается ни с каким геном.