Поиск сигналов. chip-seq

Мне был дан файл chipseq_y14/chipseq_chunk10.fastq в котором риды Illumina, полученные в результате сhip-seq эксперимента, разделены на отдельные файлы, соответствующие участкам хромосом.

Контроль качества чтений.

С помощью программы FastQC был проведен контроль качества чтений.

Команда: fastqc chipseq_chunk10.fastq

Программа выдала 2 файла: chipseq_chunk10_fastqc.html и chipseq_chunk10_fastqc.zip.

На рисунке ниже приведена информация о чтениях.

На рисунке ниже представлено качество чтений. Все риды отмечены как хорошие. Даже усы не выходят из зеленой зоны. Поэтому очищать чтения с помощью Trimmomatic нет необходимости.

Картирование прочтений.

Затем было проведено картирование чтений на геном человека hg19 программаой BWA. Предоставленный геном уже проиндексирован, следовательно необходимости в индексировании нет.

Команда: bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk10.fastq > chipseq_chunk10.sam

Был получен файл chipseq_chunk10.sam и проведен его анализ.

samtools view -b chipseq_chunk10.sam -o chunk10.bam Эта команда переводит в бинарный формат.

samtools sort chipseq_chunk10.bam -T chip_temp -o chipseq_chunk10.sorted.bam Эта команда сортирует по координате в референсе начала чтений.

samtools index chunk10_sorted.bam Эта команда индексирует отсортированное.

samtools idxstats chunk10_sorted.bam Эта команда выдает информацию о количестве чтений, откартированных на геном.

samtools view -c chipseq_chunk10.sorted.bam Эта команда выводит на экран общее количество откартированных чтений.

Изначально было 8651 рида. Стало 8651. На геном откартированно столько ридов сколько и было. На хромосому 1 откартировалось большинство чтений, следовательно можно предположить, что мне для анализа были предложены прочтения с 1й хромосомы.

Поиск пиков.

С помощью программы MACS, установленной на кодомо, был выполнен поиск пиков.

macs2 callpeak -t chipseq_chunk10.sorted.bam --nomodel -n Chunk

Получены 3 файла: Chunk_peaks.narrowPeak , Chunk_peaks.xls, Chunk_summits.bed.

Всего найдено 11 пиков. Все они в 1й хромосоме. Ширина пиков от 217 до 392.

name startend lengthabs_summit pileup -log10(pvalue) fold_enrichment-log10(qvalue)
Chunk_peak_1201140633 20114089626420114077434.00 22.605477.8475316.05741
Chunk_peak_2201413996 20141423724220141412931.0028.1557411.5107921.39019
Chunk_peak_320143108620143136528020143124140.0033.8711111.5168526.80800
Chunk_peak_4201520986 20152125426920152111943.0033.6670910.5263226.61922
Chunk_peak_5201547477 20154779632020154756824.0013.66005 5.841127.40290
Chunk_peak_6201554247 20155446321720155433125.0016.98054 7.2625710.60839
Chunk_peak_7201572049 20157224820020157212820.0012.71633 6.176476.50442
Chunk_peak_8201682607 20168282822220168273638.0027.483409.0697720.77094
Chunk_peak_9201683801 20168408128120168395444.0034.3669510.5633827.28265
Chunk_peak_1020186505620186544739220186526197.00100.3263921.0300490.86187
Chunk_peak_1120188584320188606121920188594725.0019.407188.5526312.96592

Самый достоверный пик с наименьшим p-value, так как у нас -log10(pvalue), то достовернее тот у которого этот параметр выше. А именно пик 10, а наимее пик 7.

Затем информация из файла Chunk_peaks.narrowPeak была визуализирована с помощью UCSC Genome Browser. Для этого в начало файла были добавлены строчки:

track type=narrowPeak visibility=3 db=hg19 name="Chunk_peaks" description="Peaks from chunk 10"

browser position chr1:201140642-201886071

Рассмотрим 2 наиболее достоверных пика 10 и 9. Также они из самых длинных пиков. Расстояние от начала до вершины пика 9 = 153, пика 10 = 205. Обе вершины находятся ближе к концу пика.

Ниже на рисунках представлены увеличенные изображения пиков 9 и 10.

Пик 9 перекрввается с NAV1_HUMAN (neuron navigator 1), который кодирует белок связанный с различной клеточной деятельностью, экспрессируются в нервную систему. Пик 10 расположен перед геном LMOD1_HUMAN (leiomodin 1), кодирует белки гладкой мускулатуры.

Ссылки:

На главную


© Кузнецова Ксения, 2015