Поиск сигналов. Chip-seqЦель: Определите сайты связывания данного транскрипционного фактора в данном участке хромосомы человекаКонтроль качества чтенийДля анализа мне достался один из многих участков хромосомы, полученных после ChiP-seq эксперимента. Он находится в файле chipseq_chunk23.fastq. Я проанализировал его с помощью программы fastqc (установлена на kodomo): fastqc chipseq_chunk23.fastq Рис. 1 результат анализа моего файла (качество рида) Результат показал, что чтения чистить не надо, т.к. значения находятся в пределах приемлемых значений (зеленая зона). Полный анализ в html формате можно найти тут. Картирование прочтений на геном человека hg19Картирование прочтений на геноме человека hg19 осуществлялось с помощью программы BWA. bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk23.fastq > chipseq_chunk23.sam Далее рядом команд данные были преобразованы в вид, пригодный для понимания. samtools view chipseq_chunk23.sam -bSo chipseq_chunk23.bam - файл с выравниванием переводится в бинарный формат .bam samtools sort chipseq_chunk23.bam -T chip_temp -o chipseq_chunk23_sort.bam - сортирует выравнивание ридов и референса по координате рида в референсе samtools index chipseq_chunk23_sort.bam - полученный файл сортируется samtools idxstats chipseq_chunk23_sort.bam > count.out - считает, сколько ридов откартировалось В результате 7095 прочтений откартировались на 10-ую хромосому (? процентов?), что говорит о том, что изучать мне дали именно её. Поиск пиков (Peak calling)Для поиска пиков будет использовать программы MACS macs2 callpeak -n chipseq_chunk23 -t chipseq_chunk23_sort.bam --nomodel В результате было получено 3 файла: chipseq_chunk23_summits.bed, chipseq_chunk23_peaks.xls, chipseq_chunk23_peaks.narrowPeak. Всего было найдено 10 пиков. Далее я визуализировал пики сервисом UCSC Genome Browser, загрузив в него следующий модифицированный файл: в файле chipseq_chunk23_peaks.narrowPeak первая строка была дополнена строкой: track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 23" browser position chr10:80733322-81288266 Рис.2. Визуалиция в UCSC Genome Browser пиков Таблица 1. Характеристики пиков
Каждому найденному пику соответствует число -log10(p-value), по которому можно оценить достоверность находки. Более высокие значения этого показателя означают более низкий p-value, а значит более высокую достоверность находки. Рассмотрим в более крупном масштабе пики с наименьшим p-value (номера 3 и 7 в Таблице 1): Рис. 3. Пик 3 в более крупном масштабе Рис. 4. Пик 7 в более крупном масштабе Ген ZMIZ1 кодирует белок содержащий домен с цинковым палецем.
|