Для выполнения задания был выдан файл chipseq_chunk54.fastq с ридами Illumina, полученные в результате сhip-seq эксперимента.
Все действия выполнялись в специально созданной директории /nfs/srv/databases/ngs/p.avdiunina
Сперва был выполнен анализ качества чтений с помощью программы FastQC(использовалась версия, установленная на сервере kodomo).
В командную строку была введена команда: fastqc
chipseq_chunk54.fastq
Программа в той же папке выдала мне файл chipseq_chunk54.html,
содержащий визуализированный отчёт о работе, и архив
chipseq_chunk54.zip с картинками и текстовыми файлами.
Перед очисткой чтений были оценены два графика - распределение качества чтений оснований и длин ридов(см. рисунок 1 и 2).
Длины ридов оказались примерно одинаковы(от 35-37 bp),
качества чтений оснований - от 26 до 38.
Для очистки чтений была использована программой Trimmomatic, убрав риды с качеством ниже 50, остались риды с минимальной длиной 36 пар
нуклеотидов:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chipseq_chunk54.fastq chipseq_chunk54_out.fastq TRAILING:50 MINLEN:36
Рис.1 Per Base Sequence Quality, chipseq_chunk54.fastq
Рис.2 Sequence length distribution, chipseq_chunk54.fastq
Далее последовательности были откартированы на проиндескированный геном человека.
Картирование выполнялось с помощью команды BWA для проиндексированного референса:
bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk54.fastq >
chipseq_chunk54.sam
Далее для анализа картирования было выполнено несколько команд.
Сначала с помощью пакета samtools файл с выравниванием был переведен в бинарный формат .bam:
samtools view chipseq_chunk54.sam -bSo chipseq_chunk54.bam
Получившийся файл chipseq_chunk54.bam был подан на вход другой команде, которая сортирует выравнивание ридов с референсом по координате в референсе
(параметр -T позволяет
записать временные файлы в файл chip_time, т.к. иначе они выводятся в stdout):
samtools sort chipseq_chunk54.bam -T chip_time -o chipseq_chunk54_sorted.bam
Далее полученный файл был проиндексирован:
samtools index chipseq_chunk54_sorted.bam
Затем производился подсчет ридов, которые откартировались на геном:
samtools idxstats chipseq_chunk54_sorted.bam > chip_seq.out
Итоговый файл: chip.out. Таким образом, из 17513 ридов 16290 (93.01%) были откартированы на 4 хромосому, так что предполагаю,
что риды с именно этой хромосомы
были предложены мне для анализа. При этом откартировалось 17032 рида.
Peak calling — компьютерный метод поиска областей генома, на которые откартировалось большое число ридов из данных эксперимента ChiP-Seq.
В случае ТФ эти области соответствуют сайтам
связывания ТФ.
Для поиска пиков использовалась программа MACS (Model-based Analysis of Chip-Seq)
— одна из самых популярных программ для анализа данных ChiP-Seq эксперимента. Для выполнения задания
использовалась следующая команда (параметр
--nomodel введен, так как пиков было слишком мало):
macs2 callpeak -n chipseq_chunk41 -t chipseq_chunk41_sorted.bam --nomodel
При этом было получено 3 файла ( *.narrowPeak, *.xls, *.bed) с информацией о пиках.
Всего было найдено 8 пиков на 4 хромосоме (табл. 2). Визуализация пиков в UCSC Genome Browser
представлена на рис. 3.
Для визуализации в браузер подавался файл chipseq_chunk41_peaks.narrowPeak, в начало которого было дописано
"track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 54" browser position chr4:74211425-75579621"
№ | Начало | Конец | Длина | -log10(p-value) |
---|---|---|---|---|
1 | 74211426 | 74211710 | 285 | 18.73502 |
2 | 74213276 | 74213664 | 389 | 25.24755 |
3 | 74254659 | 74255045 | 387 | 26.17290 |
4 | 74297854 | 74298212 | 359 | 29.61678 |
5 | 74298335 | 74298676 | 342 | 32.86220 |
6 | 75056785 | 75057221 | 437 | 19.82668 |
7 | 75067771 | 75068355 | 585 | 64.71461 |
8 | 75579380 | 75579621 | 242 | 13.30696 |
Таблица 1. Информация о найденных пиках.
Рис.3 Визуализация пиков в UCSC Genome Browser
Каждому найденному пику соответствует определенное число, позволяющее оценить достоверность находки, — -log10(p-value).
При этом чем больше это число, тем меньше p-value и, следовательно,
тем выше достоверность находки. В принципе, у всех находок
достаточно низкий p-value. Тем не менее я решила рассмотреть пятую и седбмую находки, как наиболее статистически достоверные.
На рис. 4 и 5 представлены изображения двух этих пиков в UCSC Genome Browser.
Рис.4 Визуализация пятого пика в UCSC Genome Browser
Рис.5 Визуализация седьмого пика в UCSC Genome Browser
Как можно заметить, пятый пик попал на ген AFP, а седьмой - на ген MTHFD2L, а точнее на их интроны.
Ген AFP кодирует белок альфа-фетопротеин, основной белок плазмы, продуцируемый желточным мешком и
печенью во время внутриутробного развития. Белок является эмбриональным аналогом сывороточного альбумина,
а гены альфа-фетопротеина и альбумина находятся в одной и той же транскрипционной ориентации на хромосоме 4.
Альфа-фетопротеин обнаружен в мономерных, а также в димерных и тримерных формах и связывает медь, никель,
жирные кислоты и билирубин.
Ген MTHFD2L кодирует фермент метилтетрагидрофолат дегидрогеназу, которая участвует в одноуглеродном метаболизме (One-carbon metabolism),
катализируя следующие реакции:
5,10-methylenetetrahydrofolate + NAD+ = 5,10-methenyltetrahydrofolate + NADH.
5,10-methenyltetrahydrofolate + H2O = 10-formyltetrahydrofolate.
В качестве кофактора выступает Mg2+
Пики целиком попадают на интрон.
Далее при помощи команды:
/srv/databases/ngs/tools/seqtk/seqtk subseq /srv/databases/ngs/hg19/GRCh37.p13.genome.fa NA_peaks.narrowPeak > my_peaks.fa
был получен файл в формате .fasta, последовательности из которого затем были выровнены в программе Jalview (Muscle with Defaults).
Полученное выравнивание представлено на рис. 6.
![]() |
Как видно на изображении, в выравнивании очень много гэпов и мало консервативных позиций.
Определить консенсусную последовательность длиной 4-8 нуклеотидов и с
хотя бы 70% консенсуса для каждой позиции не представляется возможным. Последовательности были даны на вход программе МЕМЕ. И действительно, хоть программа и смогла
найти несколько мотивов, но все находки обладали огромным e-value (все были > 1), и достоверными считаться никак не могли.
Вероятно, поскольку экспериментальных данных было недостаточно, не удалось определить последовательности мотивов достаточно точно.
Источники:
© Avdiunina Polina, 2017