Практикум 10

Поиск сигналов. chip-seq

Мне был дан файл chipseq_y14/chipseq_chunk10.fastq в котором риды Illumina, полученные в результате сhip-seq эксперимента, разделены на отдельные файлы, соответствующие участкам хромосом.

Контроль качества чтений.

С помощью программы FastQC был проведен контроль качества чтений.

Команда: fastqc chipseq_chunk10.fastq

Программа выдала 2 файла: chipseq_chunk10_fastqc.html и chipseq_chunk10_fastqc.zip.

На рисунке ниже приведена информация о чтениях.

На рисунке ниже представлено качество чтений. Все риды отмечены как хорошие. Даже усы не выходят из зеленой зоны. Поэтому очищать чтения с помощью Trimmomatic нет необходимости.

Картирование прочтений.

Затем было проведено картирование чтений на геном человека hg19 программаой BWA. Предоставленный геном уже проиндексирован, следовательно необходимости в индексировании нет.

Команда: bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk10.fastq > chipseq_chunk10.sam

Был получен файл chipseq_chunk10.sam и проведен его анализ.

samtools view -b chipseq_chunk10.sam -o chunk10.bam Эта команда переводит в бинарный формат.

samtools sort chipseq_chunk10.bam -T chip_temp -o chipseq_chunk10.sorted.bam Эта команда сортирует по координате в референсе начала чтений.

samtools index chunk10_sorted.bam Эта команда индексирует отсортированное.

samtools idxstats chunk10_sorted.bam Эта команда выдает информацию о количестве чтений, откартированных на геном.

samtools view -c chipseq_chunk10.sorted.bam Эта команда выводит на экран общее количество откартированных чтений.

Изначально было 8651 рида. Стало 8651. На геном откартированно столько ридов сколько и было. На хромосому 1 откартировалось большинство чтений, следовательно можно предположить, что мне для анализа были предложены прочтения с 1й хромосомы.

Поиск пиков.

С помощью программы MACS, установленной на кодомо, был выполнен поиск пиков.

macs2 callpeak -t chipseq_chunk10.sorted.bam --nomodel -n Chunk

Получены 3 файла: Chunk_peaks.narrowPeak , Chunk_peaks.xls, Chunk_summits.bed.

Всего найдено 11 пиков. Все они в 1й хромосоме. Ширина пиков от 217 до 392.

name	start	end	length	abs_summit	pileup	-log10(pvalue)	fold_enrichment	-log10(qvalue)
Chunk_peak_1	201140633	201140896	264	201140774	34.00	22.60547	7.84753	16.05741
Chunk_peak_2	201413996	201414237	242	201414129	31.00	28.15574	11.51079	21.39019
Chunk_peak_3	201431086	201431365	280	201431241	40.00	33.87111	11.51685	26.80800
Chunk_peak_4	201520986	201521254	269	201521119	43.00	33.66709	10.52632	26.61922
Chunk_peak_5	201547477	201547796	320	201547568	24.00	13.66005	5.84112	7.40290
Chunk_peak_6	201554247	201554463	217	201554331	25.00	16.98054	7.26257	10.60839
Chunk_peak_7	201572049	201572248	200	201572128	20.00	12.71633	6.17647	6.50442
Chunk_peak_8	201682607	201682828	222	201682736	38.00	27.48340	9.06977	20.77094
Chunk_peak_9	201683801	201684081	281	201683954	44.00	34.36695	10.56338	27.28265
Chunk_peak_10	201865056	201865447	392	201865261	97.00	100.32639	21.03004	90.86187
Chunk_peak_11	201885843	201886061	219	201885947	25.00	19.40718	8.55263	12.96592

Самый достоверный пик с наименьшим p-value, так как у нас -log10(pvalue), то достовернее тот у которого этот параметр выше. А именно пик 10, а наимее пик 7.

Затем информация из файла Chunk_peaks.narrowPeak была визуализирована с помощью UCSC Genome Browser. Для этого в начало файла были добавлены строчки:

track type=narrowPeak visibility=3 db=hg19 name="Chunk_peaks" description="Peaks from chunk 10"

browser position chr1:201140642-201886071

Рассмотрим 2 наиболее достоверных пика 10 и 9. Также они из самых длинных пиков. Расстояние от начала до вершины пика 9 = 153, пика 10 = 205. Обе вершины находятся ближе к концу пика.

Ниже на рисунках представлены увеличенные изображения пиков 9 и 10.

Пик 9 перекрввается с NAV1_HUMAN (neuron navigator 1), который кодирует белок связанный с различной клеточной деятельностью, экспрессируются в нервную систему. Пик 10 расположен перед геном LMOD1_HUMAN (leiomodin 1), кодирует белки гладкой мускулатуры.

Ссылки:

На главную