Четвертый семестр
Главный сайт
|
Определение сайта связывания транскрипционного фактора в участке хромосомы человека.
=======
Для выполнения задания был использован chipseq_chunk44.fastq, содержащий риды Illumina одного из участков хромосомы человека.
Был проведен контроль качества ридов с помощью команды fastqc chipseq_chunk44.fastq.
Качество оказалось приемлемым (не ниже 25), поэтому
урезание не проводилось. Всего ридов оказалось 15483.
Риды были картированы на проиндексированный геном человека:
bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk44.fastq > chipseq_chunk44.sam
Выравнивание переведено в бинарный формат:
samtools view -b chipseq_chunk44.sam -o bin.bam
Отсортировано по координате в референсе начала чтения:
samtools sort bin.bam sorted.bam
Полученный файл проиндексирован:
samtools index sorted44.bam.bam
Получены данные о количестве откартированных ридов (см. рис. 2):
samtools idxstats sorted44.bam.bam
Все риды откартировались (правая колонка нулевая), большинство - на хромосому 18.
Затем была запущена программа MACS:
macs2 callpeak -n chunk44 -t sorted44.bam.bam --nomodel
Всего было найдено 10 пиков.
К файлу chunk44_peaks.narrowPeak были добавлены строки:
track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 44"
browser position chr18:31977000-33297000
Файл был рассмотрен в UCSC Genome Browser:
С отображением генов:
Описание пика chunk44_peak_1:
Длина: 219
P-value: 10^(-13.96)
(Координата вершины - координата начала): 131
Геномное окружение: генов нет
Описание пика chunk44_peak_2:
Длина: 228
P-value: 10^(-14.17)
(Координата вершины - координата начала): 115
Геномное окружение: ген DTNA (Dystrobrevin Alpha) - мышечный белок, родственный дистрофину
Описание пика chunk44_peak_3:
Длина: 384
P-value: 10^(-15.46)
(Координата вершины - координата начала): 173
Геномное окружение: генов нет
Видно, что P-value очень низкое, следовательно точность высокая. Вершина может довольно сильно отклонятся от середины пика.
Из всех пиков пик 4 и 7 расположены в самом типичном месте для транскрипционного фактора -
прямо перед генами MAPRE2 и INO80C. Остальные пики находятся посредине генов или далеко от них.
Задание 4 (с 2014 года, старое). Инициация транскрипции с помощью TATA-бокс связывающего фактора
TATA-бокс связывающий фактор TBP - архейный и эукариотический белок, узнающий восьминуклеотидный сигнал в ДНК с консенсусом TATAWAAR.
Это важный компонент комплекса инициации транскрипции, в этом месте происходит расплетение ДНК. Однако не каждый промотор несет выраженный
TATA-бокс.
Было исследовано связывание TMP с участками генома линии HeLa-S3.
Параметры поиска:
Найденные гены
Ген: SOD1
Название: Homo sapiens superoxide dismutase 1
Старт: chr21, +, 33031935
Длина: 9309
TATA-бокс: отсутствует, хотя TBP хорошо связан.
Ген: RCAN1
Название: Homo sapiens regulator of calcineurin 1
Старт: chr21, -, 35888740
Длина: 10569
TATA-бокс: хорошо выражен, начинается на -17.
Ген: MORC3
Название: Homo sapiens MORC family CW-Type zinc finger 3
Старт: chr21, +, 37692487
Длина: 56458
TATA-бокс: практически отсутствует.
Ген: NCOA3
Название: Homo sapiens nuclear receptor coactivator 3
Старт: chr20, +, 46130601
Длина: 155021
TATA-бокс: присутствует в неожиданном месте, начало на +4. Близок к конснесусу. Не очень понятно, как он работает в таком месте. Возможно
это вовсе не TATA-бокс.
==============================================================================================================================================
|