Учебный сайт Макаровой Надежды

Третий семестр

Определение сайтов связывания транскрипционного фактора в участке хромосомы человека

Данные по ChIP-seq анализу были проверены с помощью программы FastQC Результаты представлены по ссылке. График, отображающий качество нуклеотидов в чтениях, представлен на Рис. 1 Так как качество ридов хорошее и примерно одинаково по всей длине чтения, и не сильно ухудшается к концу, а сами чтения достаточно короткие (36 нуклеотидов), обработка программой Trimmomatic не проводилась. Число ридов - 8816

Рис.1 Распределение качества нуклеотида в риде по положению в риде. Иизображение получено с помощью анализа качества чтения программой FastQC.

Затем чтения были откартированы на геном человека hg19 (заранее проиндексированный) с помощью команды

bwa mem ../hg19/GRCh37.p13.genome.fa chipseq_chunk30.fastq > chipseq_chunk30.sam
Далее были использованы следующие команды:
samtools view -bSo chipseq_chunk30.bam chipseq_chunk30.sam
(переводит выравнивание чтений с референсным геномов в бинарный формат, с которым потом работают программы),
samtools sort chipseq_chunk30.bam -T chip_temp -o chipseq_chunk30.sorted.bam
(сортирует выравнивание по координате начала чтения в референсе),
samtools index chipseq_chunk30.sorted.bam
(индексирует отсортированный файл),
samtools idxstats chipseq_chunk30.sorted.bam > chipseq_chunk30.idxstats
(записывает в файл chipseq_chunk30.idxstats информацию о количестве чтений, откартированных на каждый элемент генома) и
samtools view -c chipseq_chunk30.sorted.bam
(показывает, сколько чтений в сумме было откартированно на все элементы генома).
Все 8816 ридов были откартированы на геном (Рис. 2). При этом распределение чтений по хромосомам (Рис.3) позволяет предположить, что я работаю с участками 19 хромосомы человека.

Рис.2 Число чтений, откартированных на геном.

Рис.3 Распределение числа откартированных чтений по хромосомам. Больше всего чтений откартировано на 19 хромосому (7995 из 8816, что составляет 91%)

Для поиска пиков (обычно это называют peak calling) была использована программа MACS.

 macs2 callpeak -t chipseq_chunk30.sorted.bam  
Но было слишком мало пиков, поэтому воспользовалась командой
 macs2 callpeak -t chipseq_chunk30.sorted.bam -n chipseq_chunk30 --nomodel  
Результатом работы программы являются три файла:
Всего найдено 20 пиков. Результаты были визуализированы с помощью UCSC Genome Browser (Рис. 4) Все пики находятся довольно близко.. Для этого в файл MACS_peaks.narrowPeak была дописана строчка
track type=narrowPeak visibility=3 db=hg19 name="my_peaks" 

Рис.4 Расположение найденных пиков в геноме человека (сборка hg19). Представлен участок 19 хромосомы. Изображение получено с помощью геномного браузера UCSC.

Наиболее достоверными являются пики с номерами 5 и 7 (их параметры представлены на Рис. 5). У ник максимальные -log(p/q-value), одни из максимальных длин, и они хорошо центрированы.

Рис.5 Параметры 2-ух лучших пиков с номерами 5 и 7.

Рассмотрим пик под номером 5. Он приходится на интрон гена SULT2B1. Примерно в 1000 нуклеотидах от экзона. Также на Рис. 6 представлена информация о сайтах связывания факторов транскрипции из ранее проведенных ChIP-seq экспериментов. В области нашего пика было обнаружено много сигналов.

Рис.6 Окно геномного браузера с пиком 5, который подтверждается в других исследованиях.

Рассмотрим пик под номером 7. Он приходится на интрон гена SEC1P. также он находится возле гена Netrin-5 (NTN5), кодирующего белок нейтрин, участвующего в аксональном наведении. От концентрации нетринов зависит направление роста аксонов. Также на Рис.7 представлена информация о сайтах связывания факторов транскрипции из ранее проведенных ChIP-seq экспериментов. В области нашего пика было обнаружено много сигналов. К тому же, в области посадки этого фактора наблюдается изменение насыщенности метки H3K27ac. Можно, сказать, что это сайт транскрипционного фактора.

Рис.7 Окно геномного браузера с пиком 7, который подтверждается в других исследованиях.

Поиск сигналов TATA-бокс связывающего белка (TBP) в геноме человека

Были проанализированы результаты ChIP-seq анализа для TBP в стволовых эмбриональных клетках человека H1-hESC в геномном браузере UCSC. Эксперимент проводился с использованием антител кролика. Было описано три гена, транскрипция которых инициируется с помощью TBP, и один - без сигнала TATA-box в промоторной области.

1. Ген TCTA

Название: Homo sapiens T-cell leukemia translocation altered gene

Положение в геноме: chr3:49449639-49453909, +

Координата старта транскрипции: 49449639

Длина гена: 4271 п.н.

Рис.8 Изображение положения гена TCTA. Виден пик в его промоторной области.


Рис.9 То же в нуклеотидном разрешении. Видна консервативная последовательность ТАТА-бокса (выделена красным).

Найденный пик имеет довольно большую силу, что свидетельствует о его достоверности. В промоторной области гена была найдена последовательность TATAAA примерно за 20 п.н. до старта транскрипции.

Ген RPS9

Название: ribosomal protein S9 (вариант транскрипции 6) - ген рибосомального белка S9, локализованного в малой субъединице.

Координата старта транскрипции (chr19:54704726, прямая цепь).

Длина гена: 6790 п.н.

Рис.9 Изображение пика сайта связывания TBP рядом с геном RPS9 в крупном масштабе. Выделен ТАТА-бокс.

Рис.10 зображение пика сайта связывания TBP рядом с геном RPS9 в малом масштабе. Выделен ТАТА-бокс.

Видно, что пик хороший и ТАТА-бокс очень консервативный.

Ген C3orf14

Название: Homo sapiens chromosome 3 open reading frame 14, transcript variant 2

Координата старта транскрипции: (chr3:62304648, прямая цепь)/p>

Длина гена: 17241 п.н.

Рис.11 Изображение положения гена C3orf14. Виден пик в его промоторном регионе.

Рис.12 То же в нуклеотидном разрешении. Видна консервативная последовательность ТАТА-бокса.

Был найден довольно хороший пик. Рядом была обнаружена последовательность TATAAA примерно за 30 п.н. до старта транскрипции.

Ген ATP2B2

Название: АТФаза, транспортирующая Ca2+

Координата старта транскрипции: (chr3:10,365,707, обратная цепь)

Длина гена: 181,562 п.н.

Рис.13 Промоторная область гена ATP2B2.

Рис.14 Последовательность нуклеотидов в промоторной области гена ATP2B2

Здесь нет сигнала TATA-box так, как все сигналы в окрестности промотора гена примерно одинаковы и могут быть рассмотрены как шум.