Сайты связывания транскрипционного фактора в участке хромосомы человека
1. Контроль качества ридов
Для выполнения практикума мне был дан файл с ридами
chipseq_chunk41.fastq. Сначала я произвела оценку
ридов, чтобы понять, нужна ли очистка файла. Для этого
использовалась программа
FastQC:
$ fastqc chipseq_chunk41.fastq
Так был получен файл
.html
, содержащий информацию о ридах. Несмотря на то, что
низкокачественных ридов найдено не было ("Sequences flagged as poor
quality: 0"), усы мне показались слишком большими, поэтому я провела
очистку ридом программой
Trimmomatic , убрав риды с качеством ниже 50 и минимальной
длиной 36 п.н.:
$ java -jar /usr/share/java/trimmomatic.jar SE -phred33 chipseq_chunk41.fastq chipseq_chunk41_out.fastq TRAILING:50 MINLEN:36
В итоге был получен
.html файл с улучшенными ридами. В таблице 1 представлена
информация о ридах до и после чистки.
Таблица 1. Риды до и после чистки
Рис. 1. Общая сводка по ридам до
чистки |
Рис. 2. Общая сводка по ридам после
чистки |
Рис. 3. Качество ридов до чистки |
Рис. 4. Качество ридов после чистки |
Таким образом было удалено 15.54% ридов, качество оставшихся значительно
улучшилось. С полученным файлом производилась дальнейшая работа.
2. Картирование ридов на геном человека
Картирование выполнялось с помощью команды
BWA для
проиндексированного референса:
$ /srv/databases/ngs/seferbekova$ bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk41_out.fastq >
chipseq_chunk41.sam
Далее для анализа картирования было выполнено несколько команд. Сначала
с помощью пакета
samtools файл с выравниванием был переведен в
бинарный формат
.bam:
$ samtools view chipseq_chunk41.sam -bSo chipseq_chunk41.bam
Получившийся файл
chipseq_chunk41.bam был подан на вход другой
команде, чтобы отсортировать выравнивание ридов с референсом по
координате в референсе начала рида (параметр -T позволяет записать
временные файлы в файл chip_temp, т.к. иначе они выводятся в stdout):
$ samtools sort chipseq_chunk41.bam -T chip_temp -o chipseq_chunk41_sorted.bam
Далее полученный файл был проиндексирован:
$ samtools index chipseq_chunk41_sorted.bam
А затем я выяснила, сколько чтений откартировалось на геном:
$ samtools idxstats chipseq_chunk41_sorted.bam > chip.out
получив результат, записанный в файл
chip.out.
Таким образом, из 15693 ридов 14323 (91.27%) были откартированы на 22
хромосому, так что предполагаю, что риды с именно этой хромосомы были
предложены мне для анализа. При этом откартировались все 15693 рида.
3. Поиск пиков (peak calling)
Peak calling — компьютерный метод поиска областей генома,
на которые откартировалось большое число ридов из данных эксперимента
ChiP-Seq. В случае ТФ эти области соответствуют сайтам связывания ТФ.
Для поиска пиков использовалась программа
MACS
(Model-based Analysis of Chip-Seq) — одна из самых популярных
программ для анализа данных ChiP-Seq эксперимента. Для выполнения
задания я использовала следующую команду (параметр
--nomodel
введен, так как пиков было слишком мало):
$ macs2 callpeak -n chipseq_chunk41 -t chipseq_chunk41_sorted.bam --nomodel
При этом было получено 3 файла (
*.narrowPeak,
*.xls,
*.bed) с информацией
о пиках. Всего было найдено 11 пиков на 22 хромосоме (табл. 2).
Визуализация пиков в
UCSC Genome Browser
представлена на рис. 5. Для визуализации в браузер подавался
файл
chipseq_chunk41_peaks.narrowPeak,
в начало которого было дописано
"track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 41"
browser position chr22:28762900-29493050".
Таблица 2. Информация о найденных пиках
№ |
Начало |
Конец |
Длина |
Расстояние от старта пика до его вершины |
-log10(p-value) |
1 |
28762906 |
28763274 |
369 |
187 |
33.06771 |
2 |
28820739 |
28821101 |
363 |
130 |
23.34650 |
3 |
29179854 |
29180076 |
223 |
47 |
14.57349 |
4 |
29204765 |
29205243 |
479 |
123 |
23.51211 |
5 |
29215520 |
29215520 |
361 |
161 |
28.35736 |
6 |
29225808 |
29226007 |
200 |
38 |
11.12255 |
7 |
29288442 |
29288643 |
202 |
117 |
17.59388 |
8 |
29307871 |
29308181 |
311 |
184 |
17.91896 |
9 |
29319981 |
29320249 |
269 |
150 |
15.97544 |
10 |
29378099 |
29378298 |
200 |
30 |
15.28724 |
11 |
29492807 |
29493042 |
236 |
76 |
12.89292 |
Рис. 5. Визуализация пиков в UCSC Genome Browser
|
Каждому найденному пику соответствует определенное число, позволяющее
оценить достоверность находки, — -log
10(p-value).
При этом чем больше это число, тем меньше p-value и, следовательно,
тем выше достоверность находки. В принципе, у всех находок достаточно
низкий p-value. Тем не менее я решила рассмотреть первые две, как
наиболее статистически достоверные. На рис. 6 и 7 представлены
изображения двух этих пиков в
UCSC Genome Browser.
Рис. 6. Визуализация первого пика в UCSC Genome Browser
Рис. 7. Визуализация второго пика в UCSC Genome Browser
Как можно заметить, оба пика попали на ген
TTC28, а точнее на его интроны. Этот ген кодирует белок с
тетратрикопептидным мотивом, который во время митоза участвует в
конденсации микротрубочек в центре веретена и образовании тельца
Флемминга. Тем не менее, так как пик целиком попадает на интрон,
влияние возможного связывания ТФ с этим участком вряд ли значимо.
Далее при помощи команды:
/srv/databases/ngs/tools/seqtk/seqtk subseq /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk41_peaks.narrowPeak
> my_peaks.fa
был получен файл в формате
.fasta,
последовательности из которого затем были выровнены в программе
Jalview (Muscle with defaults). Полученное выравнивание
представлено на рис. 8.
Рис. 8. Выравнивание последовательностей (окраска ClustalX)
Как видно на изображении, в выравнивании очень много гэпов и мало
консервативных позиций. Определить консенсусную последовательность
длиной 4-8 нуклеотидов и с хотя бы 70% консенсуса для каждой позиции
не представляется возможным.