Отчет по практикуму 5. Ферменты и метаболические пути. База данных KEGG.

Часть I: подготовка чтений.

Мне была дана 4 хромосома человека chr4.fasta и файл с ридами для той же хромосомы chr4.fastq. Файл с хромосомой chr4.fasta и файл с ридами chr4.fastq был скопирован в директоию /nfs/srv/databases/ngs/tsvetcovroman. Анализ качества прочтений был проведён при помощи программы FastQC. Для улучшения качества использовался Trimmomatic. Программа FastQC была запущена через командную строку на kodomo:

fastqc chr21.fastq

Вывод программы:

 
Started analysis of chipseq_chunk4.fastq
Approx 10% complete for chipseq_chunk4.fastq
Approx 25% complete for chipseq_chunk4.fastq
Approx 40% complete for chipseq_chunk4.fastq
Approx 55% complete for chipseq_chunk4.fastq
Approx 65% complete for chipseq_chunk4.fastq
Approx 80% complete for chipseq_chunk4.fastq
Approx 95% complete for chipseq_chunk4.fastq
Analysis complete for chipseq_chunk4.fastq

В результате были получены 2 файла:chr21_fastqc.zip и chr21_fastqc.html.
Результаты в формате .html: chipseq_chunk4_fastqc.html.

Рис. 1. Информация о количестве ридов, откартированных на геном.

Рис. 2. Информация о количестве ридов, откартированных на геном.

Очистка чтений программой Trimmonatic не требуется.
Далее последовательности были откартированы на проиндескированный геном человека.
Использованная команда:

bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk4.fastq > chipseq_chunk4.sam

Выдача:

[M::main_mem] read 7271 sequences (261756 bp)...
[M::mem_process_seqs] Processed 7271 reads in 1.996 CPU sec, 2.025 real sec
[main] Version: 0.7.10-r789
[main] CMD: bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk4.fastq 
[main] Real time: 61.135 sec; CPU: 15.036 sec

После этого был проведен анализ полученного файла с помошью следующих команд:
Перевод в бинарный формат: samtools view -b chipseq_chunk4.sam -o chunk4.bam
Сортировка по координате в референсе начала чтения: samtools sort chunk4.bam -T chip_temp -o chipseq_chunk4.sorted.bam
Индексация: index chipseq_chunk4.sorted.bam
Получение информации о количестве откартированных ридов: samtools idxstats chipseq_chunk4.sorted.bam > chipseq_chunk4.idxstats
Просмотр количества откартированных ридов: samtools view -c chipseq_chunk4.sorted.bam
Получение количества откартированных ридов:samtools idxstats chipseq_chunk4.sorted.bam
Откартировался 7271 рид. 7235 ридов откартировалось на геном.
Подавляющее большинство ридов откартировались на chr12. Это позволяет предположить, что для анализа были предложены прочтения с 12 хромосомы. Полная информация о количестве откартированных ридов представлена в файле. Информация о количестве ридов, откартированных на геном представлена на Рисунке 1.

Рис. 1. Информация о количестве ридов, откартированных на геном.

Для поиска пиков была использована программа MACS. Попытка запуска командой: macs2 callpeak -t chipseq_chunk4.sorted.bam не дала результата, так как программа выдала 0 пиков. Далее я запустил программу со следущими параметрами: macs2 callpeak -n chunk4 -t chunk4_sorted.bam --nomodel.
Программа выдала следующие файлы:NA_peaks.narrowPeak , NA_peaks.xls, NA_summits.bed. Наиболее полная информация представлена в файле NA_peaks.xls. Программа нашла 8 пиков. Все пики находятся одном регионе 5 хромосомы.
В Таблице 1 представлена информация о пиках.

Имя	Начало	Конец	Ширина	abs_summit	pileup	fold_enrichment	-log10pvalue	-log10qvalue
NA_peak_1	93454544	93454788	245	93454645	20.00	9.05172	17.72276	10.87899
NA_peak_2	93481131	93481536	406	93481377	28.00	7.55208	18.99066	11.99228
NA_peak_3	93531850	93532116	267	93531986	22.00	8.64662	18.03990	11.17836
NA_peak_4	93543066	93543314	249	93543190	29.00	10.13513	24.47889	17.18385
NA_peak_5	93623268	93623600	333	93623424	45.00	13.21839	40.64933	31.17819
NA_peak_6	93855387	93855587	201	93855447	21.00	9.09091	18.28952	11.34986
NA_peak_7	93861258	93861560	303	93861362	18.00	7.72358	14.56367	8.03305
NA_peak_8	93963523	93963749	227	93963667	22.00	6.31868	13.81179	7.36060

Таблица. 1. Информация о пиках.

В Таблице 1 приведены показатели -log10pvalue и -log10qvalue. Чем выше данные параметры, тем ниже соответствующие показатели p-value и q-value, и следовательно, тем достовернее пик. Среди указанных в Таблице 1 самым достоверным является пик 5(-log10pvalue = 40.64933, -log10qvalue = 31.17819), а наименее достоверным - пик 8(-log10pvalue = 6.31868, -log10qvalue = 7.36060). Затем я поместил в начало файла NA_peaks.narrowPeak была помещена дополнительная информация так, как это описано по ссылке:http://genome.ucsc.edu/FAQ/FAQformat.html#format12.

Рис. 2. Визуализация пиков с помощью геномного браузера.

Рис. 3. Пик 5 в более крупном масштабе.

Ширина пика 5 составляет 311, достоверность пика можно оценить по p-value и q-value(-log10pvalue = 40.64933, -log10qvalue = 31.17819, следовательно p-value = 2.242*10^-41, а q-value = 6.637*10^-32). Вершина пика равноудалена от его начала и конца(на расстоянии 156 от начала при ширине пика 311). Начальная часть пика пересекается с повтором L1PA7.
Затем я визуализировал пик 4, который является вторым по достоверности(-log10pvalue = 24.47889, -log10qvalue = 17.18385).

Рис. 4. Пик 4 в более крупном масштабе.

Ширина пика 4 составляет 171, достоверность пика можно оценить по p-value и q-value(-log10pvalue = 24.47889, -log10qvalue = 17.18385, следовательно p-value = 3.319*10^-25, а q-value = 6.546*10^-18). Вершина пика смещена в сторону его конца(вершина расположена на расстоянии 124 от начала при ширине пика 171). Пик 4 не пересекается с функциональными элементами генома.

Ссылки:

[1] http://lib.stat.cmu.edu/S/bootstrap.funs
[2] Эфрон, 1979.