Сайты связывания транскрипционного фактора в участке хромосомы человека


Проверка качества ридов

Был дан файл chipseq_chunk1.fastq.Сперва нужно было проверить, необходима ли очистка файла. Для этого была использована программа FastQC.
В реультате на выходе был получен html-файл. Видно, что риды очень высокого качества, поэтому никакой чистки не нужно.
*Ссылка на изображение с общей статистикой по ридам в fastq-файле.

Картирование ридов на геном человека

Картирование ридов было выполнено при помощи BWA, при этом референс индексированный:

bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk1.fastq > chipseq_chunk1.sam

Для анализа картирования предложено было использовать следующую последовательность команд. Использую пакет samtools, sam-файл был переведен в файл бинарного формата, bam-файл:

samtools view chipseq_chunk1.sam –bSo chipseq_chunk1.bam

Далее для сортировки выравнивания ридов с референсом по координате в референсе была использована следующая команда:

samtools sort chipseq_chunk1.bam -T chip_temp -o chipseq_chunk1_sort.bam
И после проиндексирована:
samtools index chipseq_chunk1_sort.bam

Наконец для получения статистики по картированию:

samtools idxstats chipseq_chunk1_sort.bam > chip_out.txt

Видно (chip_out.txt файл), что все 4463 рида были картированы на геном, причем более 90% (90.57%) картированы на 12 хромосому. Поэтому, судя по выдаче, риды именно с 12 хромосомы предложены для анализа.

Поиск пиков

Для поиска пиков была использована программа MACS. Так как пиков было слишком мало, пришлось использовать следующую команду (присутствует флажок --nomodel):

macs2 callpeak -n chipseq_chunk1 -t chipseq_chunk1_sort.bam --nomodel

В результате были получены три файла (narrowPeak, xls, bed), в каждом из которых содержится информация о пиках.
Всего было найдено 5 пиков на 12 хромосоме (Таблица 1). Видно, что чем больше -log10(p-value), тем меньше p-value, а значит достоверность находки выше. У абсолютно всех находок p-value достаточно низкий.

Таблица 1. Характеристика пиков
Номер пикаНачальная позиция в геноме, пнКонечная позиция в геноме, пн-log10(p-value)Пиковая позиция, пн Расстояние от начальной позиции до пиковой, пнРасстояние от пиковой позиции до конечной, пн
113206138913206196333.741132061552163411
213235462513235491022.122132354760135150
313262881513262911333.726132628971156142
413297003413297023315.47413297014811485
513297073713297094413.14513297083093114

Для визуализации пиков использовалась программа UCSC Genome Browser. На вход подавался этот файл, который отличается от обычного наличием двух строчек в начале:

track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 1"
browser position chr12:132061380-132970950

Результат виден на картинке ниже.


Интересно, что все пики не соответствуют кодирующей части гена. Однако 3 пик пересекается с функциональным элементом генома. Именно поэтому решено было посмотреть на него вблизи. Изображение представлено внизу.


Пик 3 располагается между двумя экзонами генов (uc001ujy.4 и uc001ujz.1), причем пиковая часть не пересекается с кодирующими частями генов. Расстояние от пиковой позиции до промотора составляет примерно 10-15 пн. Скорее всего этот ТФ в этом месте оказывает влияние на предпромоторную часть гена uc001ujz.1.
Что касается остальных пиков, то тут наблюдается другая картина. Расстояние от пикового значения до ближайших кодирующих частей генов гораздо больше - сотни, тысячи пн. Возможно ТФ таким образом в этих сайтах регулирует работу энхансеров (как пример).

Далее была использована команда для получения fasta файла:

/srv/databases/ngs/tools/seqtk/seqtk subseq /srv/databases/ngs/hg19/GRCh37.p13.genome.fa
chipseq_chunk1_peaks.narrowPeak > my_peaks.fa

Последовательности из fasta файла были выровнены в Jalview. Результат представлен ниже (окарска по степени консервативности):


Видно, что в выравнивании большое количество гэпов, при этом количество консервативных позиций невелико. Поэтому определить консенсусную последовательность длиной 4-8 пн невозможно.