|
|
|||||||||||||||
Занятие 11, блок 3. Поиск сигналов(2). Задание 3. Определение сайтов связывания данного транскрипционного фактора в данном участке хромосомы человека Для начала необходимо было сделать контроль качества прочтений(chipseq_chunk13.fastq). Для этого использовалась программа FastQ. fastqc chipseq_chunk13.fastq Из графической выдачи следует, что качество нуклеотидов хорошее, нет нуклеотидов с низким score. Очистка программой trimmomatic не требуется. Рис.1 Качество нуклеотидов в прочтении Выдача FastQ в формате html Далее с помощью программы bwa чтения были картированы на проиндексированный геном человека: bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk13.fastq>chipseq_chunk13.sam Далее необходимо было проанализировать полученный результат. Для начала были исполнены следующие команды samtools view -b chipseq_chunk13.sam -o chunk13.bam - перевод выдачи в формат, с которым работают последующие программы samtools sort chunk13.bam chunk13_sorted.bam - сортировка выравнивания чтений с референсом samtools index chunk13_sorted.bam - индексирование отсортированного файла samtools idxstats chunk13_sorted.bam - для просмотра, сколько ридов картировалось Результат последней команды приведен на рисунке 2. Рис.2 Количество ридов, откартировавшихся на каждую хромосому Видно, что больше всего ридов картировалось на 4 хромосому, наверное, именно ее прочтения даны мне на рассмотрение. Дан был 10621 рид, все они картировались на геном(samtools view -c chunk13_sorted.bam - выдает количество картировавшихся ридов). Далее с помощью программы MACS необходимо было найти пики. macs2 callpeak -t chunk13_sorted.bam - поиск пиков При запуске программы с базовыми параметрами пиков не нашлось, поэтому пришлось их несколько изменить. macs2 callpeak -t chunk13_sorted.bam -n chunk13 --nomodel - запуск программы с измененными параметрами. Выдача программы содержала три файла: chunk13_peaks.narrowPeak chunk13_peaks.xls chunk13_summits.bed Нашлось 2 пика. Для дальнейшенго анализа данные были загружены в геномный браузер Рис.3 Скриншот расположения пиков в геномом браузере. Пики обведены красными прямоугольниками(их плохо видно). В таблице 1 приведена краткая информация о найденных пиках. Чем больше -log10(pvalue), тем лучше. Видно, что пики достаточно достоверны. Таблица 1.Информация о найденных пиках.
Также привожу скриншоты геномного браузера с пиками в более крупном масштабе. Видно, что кодирующих элементов на эти пики не приходится. Рис.4 Первый пик. Рис.5 Второй пик. Задание 4. Поиск генов, транскрипция которых инициируется с помощью TATA-бокс связывающего белка Я выбрала эксперимент, проводившийся на клеточной линии GM12878 с антителами мыши. Гены, содержащие ТАТА-бокс в промоторной области 1) Ген ITPR1 Ориентация цепи - прямая Старт - chr3:4535032 Длина - 354493 Рис. Малый масштаб Рис. Большой масштаб 2) Ген RMRP Ориентация цепи - обратная Старт - chr9:35657748 Длина - 268 Рис. Малый масштаб Рис. Большой масштаб, ТАТА-бокс выделен красной рамкой 3) Ген HIST1H2AC Ориентация цепи - прямая Старт - chr6:26124373 Длина - 546 Рис. Малый масштаб Рис. Большой масштаб Гены, не инициируемые TBP 1) Ген HES7. Пик очень сильный, а ТАТА-бокса не нашлось. Ориентация цепи - обратная Старт - chr17:8023908 Длина - 3503 Рис. Малый масштаб Рис. Большой масштаб Не во всех областях, содержащих пики, имеются ТАТА-боксы (лучше сказать, мало таких, в которых бы ТАТА-бокс имелся). Вероятно, связывание TBP может быть вызвано другими факторами, либо данный белок узнает и не очень консервативные мотивы. |