Kodomo

Пользователь

Блок 3

Задание 1. Сайты рестрикции-модификации в геноме Bacteroides helcogenes.

Был взят геном бактерии Bacteroides helcogenes (CP002352.1.fasta) и набор контигов той же бактерии из метагенома кишечника человека (Bacteroides_helcogenes.fasta), а также список известных сайтов рестрикции-модификации sites.list. С помощью специального сервиса в геноме был проведен поиск сайтов Р-М по методу Карлина. Полученные данные представлены в файле RM_sites.xlsx (геном бактерии – на листе genome, сайты в контигах из метагенома – на листе contigs). В геноме нашлось 27 сайтов Р-М, имеющих контраст меньше 0.78 (выделены фиолетовым), а в контигах из метагенома кишечника всего 6 (выделены салатовым). Скорее всего, эти сайты избегаются при работе системы рестрикции-модификации. Сайты, выделенные в сводной таблице на листе sites синим, избегаются в обоих геномах. В целом заметно, что большое количество сайтов рестрикции в контигах из метагенома не избегается, в отличие от полного генома Bacteroides helcogenes. Это может означать, что штамм из кишечника потерял многие рестриктазы, которые узнавали эти сайты. Кроме того, в обоих штаммах есть сайты GCTAGC и CCTAGG, имеющие контраст выше 1, то есть избыточно представленные в геноме.

Задание 2. Поиск последовательности Шайна-Дальгарно в геноме археи Vulcanisaeta moutnovskia 768-28

Последовательность Шайна-Дальгарно (ШД) – это последовательность нуклеотидов мРНК у прокариот (бактерий и архей), расположенная в upstream-области от старт-кодона и необходимая для связывания мРНК с малой субъединицей рибосомы за счает комплементарности 3'-концу 16S рРНК. Последовательность была впервые описана Дж. Шайном и и Л. Дальгарно в 1974 году. Консенсус последовательности - AGGAGG.

Со страницы археи Vulcanisaeta moutnovskia 768-28 был скачан полный геном хромосомы CP002529 (genome.fasta), а также таблица cо свойствами, которая была обработана в скрипте features2CDs.py. Результат работы скрипта был обработан в Excel: удалены плохо аннотированные гены, а также гены короче 300 пн и длиннее 1200 пн. В результате была получена итоговая Excel-таблица CDs.xlsx по всем кодирующим областям. Всего хороших генов осталось 879.

Так как последовательность ШД довольно короткая, нужно было ограничить области поиска в геноме последовательностей, действительно являющихся ШД. Для этого надо было добавить координаты области поиска в таблицу описания генов. Это было сделано с помощью функции Excel ЕСЛИ с учетом направления гена.

Были взяты области длиной 16 пн перед началом CDs. Итоговый файл с информацией об областях поиска ШД: в файле с расширением txt (для скрипта) fragments.txt . Для получения самих областей поиска был использован скрипт fragments2fasta.py (команда python fragments2fasta.py –i fragments.txt -f genome.fasta –o fragments.fast). Выходной файл с короткими областями поиска: fragments.fast. В нем с помощью сайта МЕМЕ был найден предполагаемый мотив ШД. Параметры поиска показаны на рис. 1. (Поиск мотива от 4 до 10 нуклеотидов длиной, только на данной цепи, поиск максимум 3 мотивов).

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/1.png

Рис. 1. Параметры поиска на странице сервиса MEME suit. Результат поиска – 3 различных мотива предполагаемой последовательности ШД – приведен на рис. 2.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/2.jpg

Рис.2. Три найденных сервисом МЕМЕ мотива в области поиска перед началом генов Vulcanisaeta moutnovskia 768-28.

Ссылка на MEME HTML output: http://meme-suite.org/opal-jobs/appMEME_4.11.214740194294781433117892/meme.html. Наилучшим мотивом можно назвать первый, с E-value = 8.8e-012. Его LOGO приведено на рис. 3.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/3.jpg

Рис. 3. LOGO лучшего мотива Шайна-Дальгарно, найденного по областям поиска «хороших» генов Vulcanisaeta moutnovskia 768-28.

С помощью PWM, составленной по этому мотиву, был проведен поиск последовательностей ШД с данным мотивом во всем геноме. Для этого предварительно были получены upstream-области не только для «хороших» генов, а для всех кодирующих последовательностей, которых 2320 штук. Области поиска были расширены до 24 нуклеотидов до начала гена, фаста-файл был получен с помощью команды python fragments2fasta.py –i fragments2.txt -f genome.fasta –o fragments2.fasta. Полученный файл, в котором проводился поиск FIMO: fragments2.fasta. Порог поиска по E-value: 0.01.

Ссылка на FIMO HTML output: http://meme-suite.org/opal-jobs/appFIMO_4.11.214742054635281535835063/fimo.html. Итог работы сервиса – в файле fimo.xlsx.

По построенной PWM последовательность Шайна-Дальгарно была найдена всего в 732 upstream-областях генов (примерно 32% от общего кол-ва генов). Это не очень высокий результат, однако стоит учитывать, что организм относится к археям, а именно – к кренархеотам, для которых ранее было показано, что инициация трансляции у представителей этого таксона редко происходит за счет комплементарности последовательности ШД и 3’-конца 16S рРНК, и чаще – с помощью других механизмов инициации.

Задание 3. Определите сайты связывания данного транскрипционного фактора в данном участке хромосомы человека

Имя выданого файла – chipseq_chunk3.fasqc. Первым делом я просмотрел качество ридов, график из FastQC представлен на рис. 1.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/31.png

Рис. 4. Качество ридов.

Смысла очищать (Trimmomatic) нет, т.к. риды отличного качества.

Далее был взят индексированый геном человека, сборка hg19. Затем риды были картированы командой:

$bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk3.fastq > chipseq_chunk3.sam

Далее были использованы несколько команд:

$ samtools view -bSo chipseq_chunk3.bam chipseq_chunk3.sam | показывает все выраванивания, -b – сообщаем, что выходной файл формата bam; -S – игнорирование предыдущих версий samtools; -o – output file

$ samtools sort chipseq_chunk3.bam -T chip_temp -o chipseq_chunk3.sorted.bam | -T – референс в формате fasta; -o – output file; сортирует по левому концу

$ samtools index chipseq_chunk3.sorted.bam | индексирует файл

$ samtools idxstats chipseq_chunk3.sorted.bam > chipseq_chunk3.idxstats | статистика индекс файла к соответствующему исходному

$ samtools view -c chipseq_chunk3.sorted.bam | -с – вместо печати лишь считать выравнивания

Изначально было 6548 ридов, по 12 хромосоме откартировалось 6172.

Далее была использована macs2, с моделью не прошло, т.к. мало пиков, использовалась команда без модели, название было дано дефолтное NA_peaks:

$ macs2 callpeak –t chipseq_chunk3.sorted.bam –nomodel

Нашлось 6 пиков.

Далее было получено выравнивание. Удалось идентифицировать что-то похожее на консенсус с достаточно неплохим p-value(рис 5):

/srv/databases/ngs/tools/seqtk/seqtk subseq /srv/databases/ngs/hg19/GRCh37.p13.genome.fa NA_peaks.narrowPeak > my_peaks.fa

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/5.png

Рис. 5. Мотивы, найденные MEME.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/6.png

Рис. 6. Лого красного мотива.

Далее в файл формата .narrowPeak были добавлены следующие строки:

track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk X"

browser position chr12:102099730-102869588

Этот файл скормил геномному браузеру. Результат на Рис. 7:

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/all.jpg

Рис. 7. Пики в геномном браузере.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/tab.jpg

Рис. 8. Информация о пиках.

Чем больше величина -LOG10(pvalue), тем меньше числовое значение pvalue и, следовательно, тем достовернее пик. Самый достоверный пик - шестой.

Пик 1. Лежит в интроне гена CHPT11.

Пик 2. Лежит в интроне гена GNPTAB.

Пик 3. Лежит в экзоне гена GNPTAB.

Пик 4. Лежит в экзоне гена JX088243.

Пик 5. В итроне IGF1. . Пик 6. Тоже в интроне гена IGF1!

Задание 4

TBP является одним из ключевых ДНК-узнающих белков, необходимых для образования на промоторах генов комплекса TFIID и инициации транскрипции с помощью Pol II. Тем не менее, лишь часть промоторов имеет сигнал TATA-box, связываемый TBP. Консенсусная последовательность для связывания TBP - TATAWAAR.

Выбранный эксперимент - ChIP-seq анализ для TBP в стволовых эмбриональных клетках человека H1-hESC с использованием антител кролика.

Было описано три гена, транскрипция которых инициируется с помощью TBP, и один - без сигнала TATA-box в промоторной области.

Первый ген с TATA-box - CDC40 (участвует в регуляции клеточного цикла, фактор процессинга пре-мРНК). Его координаты chr6:110501624-110553422, длина 51799, + цепь, 15 экзонов. TATA-box на расстоянии около 60 нт

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/tata1.png

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/tata12.png

Второй ген с TATA-box - PARN (polyA-специфичная рибонуклеаза). Его координаты chr16:14529557-14724128, длина 194572, - цепь, 24 экзона. TATA-box на расстоянии около 60 нт.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/tata2.png

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/tata22.png

Третий ген с TATA-box - BFAR (бифункциональный регулятор апоптоза). Его координаты chr16:14726668-14763093, длина 36426, + цепь, 8 экзонов. TATA-box на расстоянии около 30 нт.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/tata3.png

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/tata32.png

Пример гена без TATA-box - NOMO1 (NODAL modulator 1 - участвует в онтогенезе позвоночных). Его координаты chr16:14927643-14990014, длина 62372, + цепь, 31 экзон.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/notata.png

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term4/pr10/notata2.png

Во всех случаях TATA-box находился перед геном на расстоянии около 30-60 нт до старта транскрипции.