Определение сайтов связывания данного транскрипционного фактора в данном участке хромосомы человека

Проверка качества ридов

Несмотря на то, что не было ридов, помеченных как некачественные, из-за провала качества per tile, а также из-за длинных усов на диаграмме качества per base, и наличия относительно большого количества чтений со средним качеством 2, была проведена очистка программой Trimmomatic (убраны риды с качеством ниже 50 и длиной меньше 36):

java -jar /usr/share/java/trimmomatic.jar SE -phred33 chipseq_chunk51.fastq chipseq_chunk51_out.fastq TRAILING:50 MINLEN:36

Таким образом, из 12221 ридов было удалено 1919 (15,70%). Исчезли риды со средним качеством ниже 18, соответствующим образом изменились показатели качества per base и per tile.

Ссылка на информацию по ридам до очистки

Ссылка на информацию по ридам после очистки

Рис.1. Диаграмма качества чтений per base до очистки

Рис.2. Диаграмма качества чтений per tile до очистки

Рис.3. Распределение чтений по среднему качеству до очистки

Рис.4. Диаграмма качества чтений per base после очистки

Рис.5. Диаграмма качества чтений per tile после очистки

Рис.6. Распределение чтений по среднему качеству после очистки

Картирование ридов на геном человека

Картрирование выполнено с помощью команды:

bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk51_out.fastq > chipseq_chunk51.sam

Далее файл переведен в бинарный формат .bam

samtools view chipseq_chunk51.sam -bSo chipseq_chunk51.bam

Проведена сортировка выравниваний ридов и референса по координанте рида в референсе

samtools sort chipseq_chunk51.bam -T chtmp -o chipseq_chunk51_sort.bam #-T chtmp делает папку для временных файлов

Индексация полученного файла

samtools index chipseq_chunk51_sort.bam

Сбор статистики по выравниванию ридов по хромосоме в файл

samtools idxstats chipseq_chunk51_sort.bam >chip_seq51.out

Ссылка на число ридов, выравненных на каждой хромосоме

Поиск пиков

Для поиска пиков использовалась команда:

callpeak -n chipseq_chunk51 -t chipseq_chunk51_sort.bam --nomode

Получены файлы:

chipseq_chunk51_peaks.narrowPeak

chipseq_chunk51_peaks.xls

chipseq_chunk51_summits.bed

Итого найдено 8 пиков в хромосоме 8.

Таблица 1. Параметры пиков.

Номер Координаты Ширина Расстояние от начала до пика -log10(p-value)
1 12953978-12954316 339 167 19.08339
2 12998122-12998344 222 104 20.45434
3 13067811-13068140 330 183 26.15991
4 13123323-13123688 366 177 40.71928
5 13132584-13133029 446 186 46.27156
6 13187976-13188350 375 180 18.51964
7 13306704-13306975 272 185 14.45962
8 13402358-13402562 205 16 10.70424

Таким образом, самые достоверные пики - 4 и 5, т.к. e-value меньше 10^-40.

Для визуализации файл chipseq_chunk51_peaks.narrowPeak был загружен в UCSC Genome Browser с добавлением в начало файла строк:

track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 51" browser position chr8:12950000-13410000

Рис.7. Визуализация пиков в геномном браузере.

Для более внимательного рассмотрения были выбраны пики 4 и 5, как наиболее достоверные.

Рис.8. Визуализация пика 4 в геномном браузере.

Рис.9. Визуализация пика 5 в геномном браузере.

Оба пика находятся на интроне гена DLC1, кодирующего один из белков семейства Rho ГТФ-связывающих белков. DLC1 играет значительную роль в регуляции малых ГТФ-связывающих белков, являясь супрессором опухолей. Для данного гена характерно большое количество альтернативных транскриптов благодаря наличию альтернативных промоторов и альтернативного сплайсинга. Ген располагается на комплементарной цепи, таким образом, пики располагаются в upstream области как минимум для двух вариантов транскриптов:

DLC1 (uc003wwk.1) at chr8:12940872-12990809 - Homo sapiens deleted in liver cancer 1 (DLC1), transcript variant 2, mRNA.

DLC1 (uc011kxx.1) at chr8:12940872-12973753 - Homo sapiens deleted in liver cancer 1 (DLC1), transcript variant 4, mRNA.


© Котюргин Александр, 2015