Третий семестр
Определение сайтов связывания транскрипционного фактора в участке хромосомы человекаДанные по ChIP-seq анализу были проверены с помощью программы FastQC Результаты представлены по ссылке. График, отображающий качество нуклеотидов в чтениях, представлен на Рис. 1 Так как качество ридов хорошее и примерно одинаково по всей длине чтения, и не сильно ухудшается к концу, а сами чтения достаточно короткие (36 нуклеотидов), обработка программой Trimmomatic не проводилась. Число ридов - 8816
Рис.1 Распределение качества нуклеотида в риде по положению в риде. Иизображение получено с помощью анализа качества чтения программой FastQC. Затем чтения были откартированы на геном человека hg19 (заранее проиндексированный) с помощью команды bwa mem ../hg19/GRCh37.p13.genome.fa chipseq_chunk30.fastq > chipseq_chunk30.samДалее были использованы следующие команды: samtools view -bSo chipseq_chunk30.bam chipseq_chunk30.sam(переводит выравнивание чтений с референсным геномов в бинарный формат, с которым потом работают программы), samtools sort chipseq_chunk30.bam -T chip_temp -o chipseq_chunk30.sorted.bam(сортирует выравнивание по координате начала чтения в референсе), samtools index chipseq_chunk30.sorted.bam(индексирует отсортированный файл), samtools idxstats chipseq_chunk30.sorted.bam > chipseq_chunk30.idxstats(записывает в файл chipseq_chunk30.idxstats информацию о количестве чтений, откартированных на каждый элемент генома) и samtools view -c chipseq_chunk30.sorted.bam(показывает, сколько чтений в сумме было откартированно на все элементы генома). Все 8816 ридов были откартированы на геном (Рис. 2). При этом распределение чтений по хромосомам (Рис.3) позволяет предположить, что я работаю с участками 19 хромосомы человека.
Рис.2 Число чтений, откартированных на геном.
Рис.3 Распределение числа откартированных чтений по хромосомам. Больше всего чтений откартировано на 19 хромосому (7995 из 8816, что составляет 91%) Для поиска пиков (обычно это называют peak calling) была использована программа MACS. macs2 callpeak -t chipseq_chunk30.sorted.bamНо было слишком мало пиков, поэтому воспользовалась командой macs2 callpeak -t chipseq_chunk30.sorted.bam -n chipseq_chunk30 --nomodelРезультатом работы программы являются три файла: Всего найдено 20 пиков. Результаты были визуализированы с помощью UCSC Genome Browser (Рис. 4) Все пики находятся довольно близко.. Для этого в файл MACS_peaks.narrowPeak была дописана строчка track type=narrowPeak visibility=3 db=hg19 name="my_peaks"
Рис.4 Расположение найденных пиков в геноме человека (сборка hg19). Представлен участок 19 хромосомы. Изображение получено с помощью геномного браузера UCSC. Наиболее достоверными являются пики с номерами 5 и 7 (их параметры представлены на Рис. 5). У ник максимальные -log(p/q-value), одни из максимальных длин, и они хорошо центрированы.
Рис.5 Параметры 2-ух лучших пиков с номерами 5 и 7. Рассмотрим пик под номером 5. Он приходится на интрон гена SULT2B1. Примерно в 1000 нуклеотидах от экзона. Также на Рис. 6 представлена информация о сайтах связывания факторов транскрипции из ранее проведенных ChIP-seq экспериментов. В области нашего пика было обнаружено много сигналов.
Рис.6 Окно геномного браузера с пиком 5, который подтверждается в других исследованиях. Рассмотрим пик под номером 7. Он приходится на интрон гена SEC1P. также он находится возле гена Netrin-5 (NTN5), кодирующего белок нейтрин, участвующего в аксональном наведении. От концентрации нетринов зависит направление роста аксонов. Также на Рис.7 представлена информация о сайтах связывания факторов транскрипции из ранее проведенных ChIP-seq экспериментов. В области нашего пика было обнаружено много сигналов. К тому же, в области посадки этого фактора наблюдается изменение насыщенности метки H3K27ac. Можно, сказать, что это сайт транскрипционного фактора.
Рис.7 Окно геномного браузера с пиком 7, который подтверждается в других исследованиях. Поиск сигналов TATA-бокс связывающего белка (TBP) в геноме человекаБыли проанализированы результаты ChIP-seq анализа для TBP в стволовых эмбриональных клетках человека H1-hESC в геномном браузере UCSC. Эксперимент проводился с использованием антител кролика. Было описано три гена, транскрипция которых инициируется с помощью TBP, и один - без сигнала TATA-box в промоторной области.
1. Ген TCTA Название: Homo sapiens T-cell leukemia translocation altered gene Положение в геноме: chr3:49449639-49453909, + Координата старта транскрипции: 49449639 Длина гена: 4271 п.н.
Рис.8 Изображение положения гена TCTA. Виден пик в его промоторной области.
Рис.9 То же в нуклеотидном разрешении. Видна консервативная последовательность ТАТА-бокса (выделена красным). Найденный пик имеет довольно большую силу, что свидетельствует о его достоверности. В промоторной области гена была найдена последовательность TATAAA примерно за 20 п.н. до старта транскрипции. Ген RPS9 Название: ribosomal protein S9 (вариант транскрипции 6) - ген рибосомального белка S9, локализованного в малой субъединице. Координата старта транскрипции (chr19:54704726, прямая цепь). Длина гена: 6790 п.н.
Рис.9 Изображение пика сайта связывания TBP рядом с геном RPS9 в крупном масштабе. Выделен ТАТА-бокс.
Рис.10 зображение пика сайта связывания TBP рядом с геном RPS9 в малом масштабе. Выделен ТАТА-бокс. Видно, что пик хороший и ТАТА-бокс очень консервативный.Ген C3orf14 Название: Homo sapiens chromosome 3 open reading frame 14, transcript variant 2 Координата старта транскрипции: (chr3:62304648, прямая цепь)/p> Длина гена: 17241 п.н.
Рис.11 Изображение положения гена C3orf14. Виден пик в его промоторном регионе.
Рис.12 То же в нуклеотидном разрешении. Видна консервативная последовательность ТАТА-бокса. Был найден довольно хороший пик. Рядом была обнаружена последовательность TATAAA примерно за 30 п.н. до старта транскрипции. Ген ATP2B2 Название: АТФаза, транспортирующая Ca2+ Координата старта транскрипции: (chr3:10,365,707, обратная цепь) Длина гена: 181,562 п.н.
Рис.13 Промоторная область гена ATP2B2.
Рис.14 Последовательность нуклеотидов в промоторной области гена ATP2B2 Здесь нет сигнала TATA-box так, как все сигналы в окрестности промотора гена примерно одинаковы и могут быть рассмотрены как шум.
Дата последнего изменения: 22.10.14
© 2014 Макарова Надежда |