Вернуться на главную страницу

Семестры

Третий семестр

Поиск сигналов. chip-seq. Определение сайтов связывания транскрипционного фактора в участке хромосомы

Для данного практикума были взяты риды, полученные в результате chip-seq эксперимента из файла chipseq_chunk42.fastq

Для оценки качества ридов использовалась программа FastQC

fastqc chipseq_chunk42.fastq

Полученный html файл По результатам работы этой программы, несмотря на то, что ридов с плохим качеством нет, было принято решение удалить все риды с длиной менее 36 п.н. и качеством ниже 50 с помощью программы Trimmomatic

java -jar /usr/share/java/trimmomatic.jar SE -phred33 chipseq_chunk42.fastq chipseq_chunk42_out.fastq TRAILING:50 MINLEN:36

Отчищенный риды опять были проанализированы с помощью программы FastQC. Полученный html файл Всего было удалено 15,3% (4017) ридов

Рис1. Риды до чисткиРис2. Риды после чистки

Картирование ридов на геном

Картирование проводилось программой BWA для референсного генома (уже проиндексированного).

bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk42_out.fastq > chipseq_chunk42.sam

Потом с помощью пакета Samtools файл с выравниванием был переведен в бинарный формат

samtools view chipseq_chunk42.sam -bSo chipseq_chunk42.bam

Далее полученное выравнивание ридов было отсортировано по координатам начала ридов на референсе. Параметр -Т организует запись временный данных, чтобы они не ввыводились в stdout.

samtools sort chipseq_chunk42.bam -T chip_temp -o chipseq_chunk42_sorted.bam

Полученный файл был проиндексирован

samtools index chipseq_chunk42_sorted.bam

Далее было выяснено, сколько ридов откартировалось на геном. Полученный файл записан в chipseq.out

samtools idxstats chipseq_chunk42_sorted.bam > chipseq.out

Из 22308 ридов на геном откартировалось 22286 ридов - 99,9%, при том 21727 ридов (97,5% от откартированных ридов) откартировались на 20 хромосому. Таким образом можно утверждать, что мне была дана 20 хромосома.

Поиск пиков (peak calling)

Искались участки генома, на которые откартировалось наибольшее число ридов. В случае эксперимента chip-seq эти участки будут соответствовать участку сайта связывания ТФ, который был защищен этим ТФ.

Была использована команда MACS (Model-based Analysis of Chip-Seq), т.к. число пиков было слишком маленьким, то с параметром --nomodel

macs2 callpeak -n chipseq_chunk42 -t chipseq_chunk42_sorted.bam --nomodel

В результате работы этой программы были получены 3 файла. chipseq_chunk42_summits.bed chipseq_chunk42_peaks.narrowPeak chipseq_chunk42_peaks.xls Было найдено 13 пиков на 20 хромосоме (см. Таблицу)

НачалоКонецДлинаS между началом и вершиной пика-lg(p-value)
17565763756604828616428.76848
2807533380755632311928.84892
38125310812568837917331.87013
48136053813627722516814.64740
58137179813766648820735.69110
68186666818689923415318.21723
78231191823166347318171.04403
88311608831200639914236.79707
98395664839599232918323.88743
108445126844533020515016.89913
118861157886142226610016.63130
12926637092665692004412.10036
13928252092827662478731.43082

Визуализация пиков проводилась в UCSC Genome Browser Ему был подан файл chipseq_chunk42_peaks.narrowPeak, в котором в начале было написано: " track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 42" browser position chr20:7565762-928276 "

Рис3. Визуализация пиков в UCSC Genome Browser

Среди имеющихся пиков только один (№7) имеет значительно больший -lg(p-value), т.е. значительно меньший p-value, а значит этот пик наиболее достоверен. Этот пик и визуализирована на Рис4.

Рис4. Наиболее достоверный пик

Как мы можем видеть, пик картировался на интрон гена PLCB1: phospholipase C beta 1. Белок, кодируемый этим геном, катализирует формирование инозито 1,4,5-трифосфата и диацилглицирола из фосфатидилинозитола 4,5-бифосфата. Кофактором реакции является кальций. Эта реакция важна для передачи внтуриклеточных и межклеточных сигналов. Ген активируется двумя альфа-субьединицами alpha-q и alpha-11 G-белка.


© Матвейшина Елена, 2015