Поиск сигналов. Chip-seq

Пункт 1: Контроль качества ридов

Для выполнения задания мне был дан файл с ридами chipseq_chunk27.fastq. В начале я посмотрела нужна ли очистка файла. Для этого я пользовалась программой FastQC.

 $ fastqc chipseq_chunk27.fastq

Так бал получен файл .html, который содержал информацию о ридах. Низкокачественных ридов найдено не было ("Sequences flagged as poor quality: 0"). И усы изначально находятся в зеленой зоне, поэтому я не вижу смысла чистить файл.

Рис. 1. Общая сводка по ридам

Рис. 2. Качество ридов

Пункт 2: Картирование ридов на геном человека

Картирование выполнялось с помощью команды BWA для проиндексированного референса:

 $ /srv/databases/ngs/klukva$ bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk27.fastq > chipseq_chunk27.sam

Далее для анализа картирования было выполнено несколько команд. Сначала с помощью пакета samtools файл с выравниванием был переведен в бинарный формат .bam:

 $ samtools view chipseq_chunk27.sam -bSo chipseq_chunk27.bam

Получившийся файл chipseq_chunk41.bam был подан на вход другой команде, чтобы отсортировать выравнивание ридов с референсом по координате в референсе начала рида (параметр -T позволяет записать временные файлы в файл chip_temp, т.к. иначе они выводятся в stdout):

 $ samtools sort chipseq_chunk27.bam -T chip_temp -o chipseq_chunk27_sorted.bam

Далее полученный файл был проиндексирован:

 $ samtools index chipseq_chunk27_sorted.bam

А затем я выяснила, сколько чтений откартировалось на геном:

 $ samtools idxstats chipseq_chunk27_sorted.bam > chip.out

получив результат, записанный в файл chip.out. Таким образом, из 11018 ридов 10566 (95.90%) были откартированы на 21 хромосому, так что предполагаю, что риды с именно этой хромосомы были предложены мне для анализа.

Пункт 3: Поиск пиков

Peak calling - компьютерный метод поиска областей генома, на которые откартировалось большое число ридов из данных эксперимента ChiP-Seq. Для поиска пиков использовалась программа MACS.

$ macs2 callpeak -n chipseq_chunk27 -t chipseq_chunk27_sorted.bam --nomodel

При этом было получено три файла (.xls, .narrowPeak, .bed ) с информацией о пиках. Всего было найдено 9 пиков на 21 хромосоме (таблица на рисунке 3).

Рис. 3. Информация о найденных пиках

Визуализация пиков в UCSC Genome Browser представлена на рисунке 4. Для визуализации в браузер подавался файл chipseq_chunk27_peaks.narrowPeak, в начало которого было дописано: track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 27" browser position chr21:40159460-40856250.

Рис. 4. Визуализация пиков

Каждому найденному пику соответствует число (-log10(p-value)), позволяющее оценить достоверность находки. При этом чем больше это число, тем меньше p-value, тем выше достоверность находки. Самая высокая достоверность у первого пика и восьмого пика. На рисунках 5 и 6 представлены изображения двух этих пиков в UCSC Genome Browser.

Рис. 5. Визуализация 1го пика

Рис. 6. Визуализация 8го пика

Восьмой пик пересекся с геном SH3BGR. Ширина первого пика-354, ширина восьмого-321. Что касается достоверности, -log10(p-value) у пиков соответственно: 78.00774 и 50.69488, что на порядок выше чем у остальных пиков.