Сигналы

Четвертый семестр Главный сайт



Определение сайта связывания транскрипционного фактора в участке хромосомы человека.



=======
Для выполнения задания был использован chipseq_chunk44.fastq, содержащий риды Illumina одного из участков хромосомы человека. 
Был проведен контроль качества ридов с помощью команды fastqc chipseq_chunk44.fastq. 

Качество оказалось приемлемым (не ниже 25), поэтому
урезание не проводилось. Всего ридов оказалось 15483. 
Риды были картированы на проиндексированный геном человека:
bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk44.fastq > chipseq_chunk44.sam
Выравнивание переведено в бинарный формат:
samtools view -b chipseq_chunk44.sam -o bin.bam
Отсортировано по координате в референсе начала чтения:
samtools sort bin.bam sorted.bam
Полученный файл проиндексирован:
samtools index sorted44.bam.bam
Получены данные о количестве откартированных ридов (см. рис. 2):
samtools idxstats sorted44.bam.bam

Все риды откартировались (правая колонка нулевая), большинство - на хромосому 18. 


Затем была запущена программа MACS:
macs2 callpeak -n chunk44 -t sorted44.bam.bam --nomodel
Всего было найдено 10 пиков. 
К файлу chunk44_peaks.narrowPeak были добавлены строки:

track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 44" 

browser position chr18:31977000-33297000


Файл был рассмотрен в UCSC Genome Browser:



С отображением генов:


Описание пика chunk44_peak_1:
Длина: 219
P-value: 10^(-13.96)
(Координата вершины - координата начала): 131
Геномное окружение: генов нет

Описание пика chunk44_peak_2:
Длина: 228
P-value: 10^(-14.17)
(Координата вершины - координата начала): 115
Геномное окружение: ген DTNA (Dystrobrevin Alpha) - мышечный белок, родственный дистрофину

Описание пика chunk44_peak_3:
Длина: 384
P-value: 10^(-15.46)
(Координата вершины - координата начала): 173
Геномное окружение: генов нет

Видно, что P-value очень низкое, следовательно точность высокая. Вершина может довольно сильно отклонятся от середины пика.
Из всех пиков пик 4 и 7 расположены в самом типичном месте для транскрипционного фактора - 
прямо перед генами MAPRE2 и INO80C. Остальные пики находятся посредине генов или далеко от них.

































Задание 4 (с 2014 года, старое). Инициация транскрипции с помощью TATA-бокс связывающего фактора

TATA-бокс связывающий фактор TBP - архейный и эукариотический белок, узнающий восьминуклеотидный сигнал в ДНК с консенсусом TATAWAAR. Это важный компонент комплекса инициации транскрипции, в этом месте происходит расплетение ДНК. Однако не каждый промотор несет выраженный TATA-бокс. Было исследовано связывание TMP с участками генома линии HeLa-S3. Параметры поиска:

Найденные гены

Ген: SOD1 Название: Homo sapiens superoxide dismutase 1 Старт: chr21, +, 33031935 Длина: 9309 TATA-бокс: отсутствует, хотя TBP хорошо связан. Ген: RCAN1 Название: Homo sapiens regulator of calcineurin 1 Старт: chr21, -, 35888740 Длина: 10569 TATA-бокс: хорошо выражен, начинается на -17. Ген: MORC3 Название: Homo sapiens MORC family CW-Type zinc finger 3 Старт: chr21, +, 37692487 Длина: 56458 TATA-бокс: практически отсутствует. Ген: NCOA3 Название: Homo sapiens nuclear receptor coactivator 3 Старт: chr20, +, 46130601 Длина: 155021 TATA-бокс: присутствует в неожиданном месте, начало на +4. Близок к конснесусу. Не очень понятно, как он работает в таком месте. Возможно это вовсе не TATA-бокс. ==============================================================================================================================================

Сайт находится в стадии разработки


© 2014 Рюмин Константин