Определение сайтов связывания данного транскрипционного фактора в данном участке хромосомы человека

Для работы был выдан файл chipseq_chunk55.fastq с ридами Illumina, полученными в результате ChIP-seq эксперимента. С помощью программы FastQC был проведен контроль качества прочтений.
Команда: fastqc chipseq_chunk55.fastq.

Информация о ридах в файле до чистки Качество рида по основаниям

На диаграмме видно, что данные нуждаются в "чистке" (концы "усов" практически все в области низкого качества). Поэтому для этих целей было решено воспользоваться программой Trimmomatic.
Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 chipseq_chunk55.fastq chunk55_new.fastq TRAILING:50 MINLEN:36.
Результат очистки — файл chunk55_new.fastqc, содержал 8552 последовательностей (в ходе работы Trimmomatic отсек порядка 22.4%). На диаграмме видно, что все "усы" теперь заканчиваются в "благоприятной" области.

Информация о ридах в файле после чистки Качество рида по основаниям

Далее последовательности были откартированы на проиндескированный геном человека.
Команда: bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chunk55_new.fastq > chunk55.sam .


Картированные последовательности

Больше всего ридов откартировалось на chr4. Таким образом, мы можем устверждать, что данные чтения именно с этой хромосомы.

Далее для поиска пиков я воспользовалась программой MACS.
Команда: bwa mem macs2 callpeak -t chunk55.sorted.bam .
Результат: файлы chunk55_peaks.xls, chunk55_summits.bed, chunk55_peaks.narrowPeak.

Информация о пиках из выдачи MACS2:
chr start end length abs_summit pileup -LOG10(pvalue) fold_enrichment -LOG10(qvalue) name
chr4 124401051 124401278 228 124401163 22.00 15.70197 7.32484 9.08797 chunk55_peak_1
chr4 124426828 124427099 272 124426971 36.00 29.83622 10.75581 20.37157 chunk55_peak_2
chr4 124446470 124446765 296 124446629 21.00 16.18124 7.85714 9.53217 chunk55_peak_3
chr4 124476588 124476871 284 124476774 29.00 27.93735 12.09677 19.49099 chunk55_peak_4
chr4 124521277 124521493 217 124521332 30.00 23.66802 9.39394 16.45623 chunk55_peak_5
chr4 124570929 124571230 302 124571121 23.00 18.63315 8.69565 11.89196 chunk55_peak_6
chr4 124898897 124899263 367 124899069 31.00 26.37031 10.52632 18.87879 chunk55_peak_7

Ширина пиков варьируется от 217 до 367. В таблице указаны показатели -log10pvalue и -log10qvalue. Чем выше эти параметры, тем ниже соответствующие показатели p-value и q-value, а следовательно, достовернее пик. Самым достоверным в нашем случае является пик 2, а наименее достоверным - пик 1.

Визуализация пиков проводилась в геномном браузере UCSC Genome Browser. Использовался файл chunk55_peaks.narrowPeak, в начало которого были предварительно напечатаны строчки: track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="chunk55_peaks" ; browser position chr4:124401000-124900000


Пики в геномном браузере


Наиболее достоверный пик (peak2)


Наименее достоверный пик (peak7)

Расстояние от начала до вершины пика 2 = 143, пика 7 = 172. Как мы можем видеть, ни один из этих пиков не пересекается с областями каких-либо генов.

Назад
На главную



© Кучеренко Варвара 2015