ChIP-seq
Для работы нам были выданы файлы .fastq с одиночными прочтениями (ридами) illumina, полученными в результате ChIP-seq эксперимента. На первом этапе я сделала контроль качества прочтений с помощью программы FastQC. Я воспользовалась версией, установленной на сервере kodomo. В командной строке я написала:
fastqc chipseq_chunk46.fastq
После чего программа в той же папке выдала мне файл chipseq_chunk46_fastqc.html, содержащий визуализированный отчёт о работе, и архив chipseq_chunk46_fastqc.zip с каринками и текстовыми файлами. Качество прочтений было удовлетворительным, но усы мне показались слишком большими, поэтому следующим шагом я решила выполнить очистку чтений с помощью программы Trimmomatic. Я воспользовалась версией программы Trimmomatic, установленной на сервере kodomo. В командной строке я писала следующую команду:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chipseq_chunk46.fastq chipseq_chunk46_out.fastq TRAILING:50 MINLEN:36
Здесь опция TRAILING удаляет с конца чтения нуклеотиды с качеством ниже указанного, а опция MINLEN удаляет чтения с длиной меньше указанного числа. В результате было удалено 14,65% ридов, и я получила очищенный файл chipseq_chunk46_out.fastq, качество которого было представлено на странице chipseq_chunk46_out_fastqc.html
Теперь выполним сравнение чтений до и после очистки.
1) До очистки. Число чтений = 17258. Длина чтений = 36. Процен GC = 48%.
2) После очистки. Число чтений = 14730. Длина чтений = 36. Процен GC = 48%.
Затем я выполнила картирование прочтений на геном человека hg19 с помощью программы BWA. Для этого я выполнила команду:
bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk46_out.fastq > chipseq_chunk46.sam
Работа программы заняла 64 секунды, и на выходе я получила файл chipseq_chunk46.sam. Теперь мне нужно было перевести его в бинарный формат .bam. Для этого я воспользовалась следующей командой пакета samtools:
samtools view chipseq_chunk46.sam -bSo chipseq_chunk46.bam
Опция -b меняет формат файла на .bam, а опция -o указывает на название выходного файла. В результате я получила файл chipseq_chunk46.bam. Затем я отсортировала получившийся файл по координате начала чтения в референсе. Для этого я использовала команду:
samtools sort chipseq_chunk46.bam -T chip_temp -o chipseq_chunk46_sorted.bam
Опция -T позволяет записывать информацию во временные файлы, а не в stdout, а опция -o указывает на название выходного файла. В результате я получила отсортированный файл chipseq_chunk46_sorted.bam. Затем было необходимо его проиндексировать, для чего я воспользовалась командой:
samtools index chipseq_chunk46_sorted.bam
В результате я получила индексный файл chipseq_chunk46_sorted.bam.bai. Последней задачей по работе с пакетом samtools было выяснить, сколько чтений откартировалось на геном. Для этого я воспользовалась командой:
samtools idxstats chipseq_chunk46_sorted.bam > out.txt
В результате я получила файл out.txt в котором указаны название последовательности, длина последовательности и число картированных на нее чтений. Получается, что из 14730 чтений 12826 (87%) были откартированы на 11 хромосому. Причем на геном откартировались все прочтения. Поэтому я считаю, что мне для анализа были предложены прочтения именно с 11 хромосомы.
Для поиска пиков я воспользовалась версией программы MACS, установленной на сервере kodomo. В командной строке я написала:
macs2 callpeak -n chunk46 -t chipseq_chunk46_sorted.bam --nomodel
В результате я получила файлы chunk46_peaks.xls, chunk46_peaks.narrowPeak и chunk46_summits.bed с информацией о найденных пиках, представленной в таблице 1. Всего было найдено 12 пиков,причем один из них не относится к 11 хромосоме. В дальнейшем я решила не исследовать его.
Таблица 1. Информация о найденных пиках | ||||||||
№ | Хромосома | Начало | Конец | Длина | Вершина | Расстояние от начала пика до его вершины |
pileup | -log10(p-value) |
1 | GL949744.1 | 170397 | 170630 | 234 | 170536 | 139 | 19.00 | 18.63553 |
2 | chr11 | 67769619 | 67769833 | 215 | 67769761 | 142 | 20.00 | 18.68741 |
3 | chr11 | 67844008 | 67844262 | 255 | 67844077 | 69 | 17.00 | 14.75298 |
4 | chr11 | 67905323 | 67905522 | 200 | 67905492 | 169 | 18.00 | 15.94685 |
5 | chr11 | 67914504 | 67914944 | 441 | 67914703 | 199 | 39.00 | 30.20449 |
6 | chr11 | 68147878 | 68148282 | 405 | 68148068 | 190 | 36.00 | 30.99165 |
7 | chr11 | 68235834 | 68236084 | 251 | 68235918 | 84 | 24.00 | 18.20288 |
8 | chr11 | 68612957 | 68613239 | 283 | 68613096 | 139 | 33.00 | 29.79350 |
9 | chr11 | 68625006 | 68625407 | 402 | 68625233 | 227 | 47.00 | 43.37504 |
10 | chr11 | 69383055 | 69383254 | 200 | 69383153 | 98 | 16.00 | 14.55495 |
11 | chr11 | 69469682 | 69470047 | 366 | 69469814 | 132 | 25.00 | 20.60395 |
12 | chr11 | 69816533 | 69816732 | 200 | 69816614 | 81 | 15.00 | 14.71966 |
Отметим, что чем выше показатель -log10(pvalue), тем ниже соответствующее значение p-value. Cледовательно, cамым достоверным является пик 9, а наименее достоверным - пик 10.
Визуализация пиков была проведена с помощью сайта UCSC Genome Browser. На вход подавался файл chunk46_peaks.narrowPeak, в начало которого были дописаны две строчки:
track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 46" browser position chr11:67769500-69816800
Ниже представлено изображение пиков, полученное с помощью UCSC Genome Browser
Далее я решила подробнее рассмотреть пики 7 и 9. Ниже представлено увеличенное изображение пика 7 (название подчеркнуто красной линией слева). Расположение пика приходится на интрон гена PPP6R3, кодирующего регулятугную субъединицу 3 серин/треонин-белковой фосфотазы 6.
Ниже представлено увеличенное изображение пика 9 (название подчеркнуто красной линией слева). Расположение пика не приходится ни на один ген.