Построение профиля подсемейства


1. Выбoр подсемейства
Для выполнения практикума мне был дан файл с ридами chipseq_chunk18.fastq.
Контроль качества был произведен командой fastq:
fastqc chipseq_chunk18.fastq
Так был получен HTML-файл, содержащий информацию о ридах. Всего 6546 ридов; по рисунку 1 можно оценить их качетсво.
Видно, что качество ридов очень хорошее, дополнительная чистка не требуется.

Рис. 1 Per base sequence quality

2. Картирование ридов на геном человека
Картирование выполнялось с помощью команды BWA для проиндексированного генома:
bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk18_out.fastq > chipseq_chunk18.sam
Командой: samtools view chipseq_chunk18.sam -bSo chipseq_chunk18.bam полученный файл был переведет в бинарный формат .bam. Выравнивание ридов с референсом было отсортировано по координате в референсе начала рида: samtools sort chipseq_chunk18.bam -T chip_temp -o chipseq_chunk18_sorted.bam Полученный файл был проиндексирован: samtools index chipseq_chunk18_sorted.bam Было выяснено, сколько чтений откартировалось на геном: samtools idxstats chipseq_chunk18_sorted.bam > chipseq.out Из файла chipseq.out выяснилось, 6038 из 6546 были откартированы на хромосому 5, таким образом скорее всего прочтения с нее мне были предложены для анализа. Всего было откартировано 6519 ридов.

3. Поиск пиков
Peak calling — компьютерный метод поиска областей генома, на которые откартировалось большое число ридов из данных эксперимента ChiP-Seq.
Для поиска пиков использовалась программа MACS (Model-based Analysis of Chip-Seq). Была использована команда (параметр --nomodel необходим, поскольку пиков слишком мало): macs2 callpeak -n chipseq_chunk41 -t chipseq_chunk18_sorted.bam --nomodel В результате были получены narrowPeak- xls- и bed-файлы, содержащие информацию о пиках (таблица 1).
Всего найдено 6 пиков на 5-й хромосоме. С помощью геномного браузера (UCSC Genome Browser) они были визуализированны (рисунок 2).

Таблица №1
Информация о найденных пиках
Начало Конец Длина Расстояние от старта пика до вершины -lg(p-value)
1 77779687 77779970 284 92 20.42412
2 77826235 77826517 283 144 30.77239
3 77974151 77974405 255 128 15.04807
4 77995753 77995991 239 122 21.02363
5 78067225 78067471 247 108 18.16418
6 78439925 78440124 200 100 18.26694

Рис. 2 Визуализация пиков в UCSC Genome Browser

О достоверноси пиков можно судить по значениям p-value. В файле *_peaks.narrowPeak для каждого пика посчитаны значения -lg(p-value). Чем -lg(p-value) больше, тем меньше p-value, а следовательно, достовернее находка.
Все пики достаточно достоверные, но для анализа я возьму две самых широких пика (1 и 2), их p-value также низкие. На рисунках 3 и 4 представлены изображения двух этих пиков в UCSC Genome Browser.

Рис. 3 Визуализация первого пика в UCSC Genome Browser

Рис. 4 Визуализация второго пика в UCSC Genome Browser

Как видно, пики попали на ген TBCA - tubulin folding cofactor A, причем, оба пика попали на экзон. Продукт гена TBCA - один из 4-х белков, отвечающих за правильный фолдинг бета-тубулина из интермедиатов.