Блок 3

  1. Системы рестрикции-модификации в двух штаммах бактерии Oscillibacter valericigenes

Для сравнения наборов систем рестрикции-модификации была выбрана бактерия Oscillibacter valericigenes (AP012044.1). Вот ссылки на полный геном и набор контигов из метагенома.

AP012044.1.fasta.gz

Oscillibacter_valericigenes.fasta.gz

Использовался данный в задании список сайтов, узнаваемых ферменты систем рестрикции-модификации.

sites.txt

С помощью веб-сервиса (опция “алгоритм Карлина”) для генома из NCBI было получено 16 сайтов, для которых контраст меньше 0,78. Для метагенома было найдено 18 сайтов (wgs файлы). Файл с результатами: chr.tsv и wgs.tsv Файл с отобранными сайтами: chr_sorted.tsv и wgs_sorted.tsv Если посмотреть на цифры “observed_number”, то видно, что в хромосоме в целом больше сайтов. Далее был произведен сравнительный анализ недопредставленных сайтов - в таблице были отмечены цветом сайты, встречающиеся только в метагеноме, только вхромосоме и пересекающиеся all_sorted.xls. Можно сказать, что многие сайты встречаются только в метагеноме.Некоторые встречаются только в хромосоме. Пересекается примерно половина недопредставленных сайтов.

  1. Поиск последовательностей Шайна-Дальгарно в геноме бактерии.

Сначала с сервера NCBI была скачана кольцевая хромосома. Затем были выбраны 300 генов - не hypothetical protein и не слишком короткие. Для каждого гена с помощью скрипта был вырезан участок от -16 до 0 позиции до начала кодирующей последовательности. С помощью MEME были найдены мотивы в вырезанных фрагментах. Искались мотивы длиной от 4 до 6, 0 или 1 мотив на последовательность, только на одной цепи. Сначала были найдены три мотива, чтобы сравнить результаты и e_value. Рис 1 Результат работы МЕМЕ

1.png

Первый мотив значительно более достоверный чем остальные, поэтому он скорее всего является искомой послдовательностью SD. Затем был произведен поиск одного мотива, и была найдена позиционно-весовая матрица PWM.txt. На основе позиционно-весовой матрицы был произведен поиск найденного мотива для всех остальных генов бактерии. Для всех генов были вырезаны участки от -16 до 0 позиции. Было найдено 2849 мотивов для p-value меньше 0.01. Возможно, присутствует большое количество случайных находок. Вот файл FIMO_table_0.01.xls, в котором результат работы FIMO и гистограмма. Рис 2 Гистограмма распределения начала найденных SD от страта трансляции По оси Х позиция от начала трансляции, по оси У количество генов.

3.png

Видно, что большее количество SD начинаются с 4 нуклеотида от начала трансляции. Также для мотивов был построен LOGO с поомощью одноименного сервиса. Рис 3 Лого, построенное по мотивам с порогом 0.01

2.png

  1. Определение сайтов связывания транскрипционного фактора в участке хромосомы человека

Качество данных было проверено с помощью FastQC. Вот результат: task_3/chipseq_chunk49_fastqc.html На графике можно видеть, что качество плохое, поэтому файл был обработан с помощью trimmotanic командой : java -jar /usr/share/java/trimmomatic.jar SE -phred33 chipseq_chunk49.fastq outfile_35.fastq SLIDINGWINDOW:10:35

Затем чтения были откартированы на геном человека hg19 с помощью команды

bwa mem srv/databases/hg19/GRCh37.p13.genome.fa outfile_35.fastq > outfile_35.sam. samtools view -bSo outfile_35.bam outfile_35.sam

samtools sort outfile_35.bam -T chip_temp -o outfile_35.sorted.bam

samtools index outfile_35.sorted.bam

samtools idxstats outfile_35.sorted.bam > outfile_35.idxstats

samtools view -c outfile_35.sorted.bam Всего было 17402 чтений, все они были откартированы на геном. При этом распределение чтений по хромосомам позволяет предположить, что это хромосома 10. task_3/output_35.idxstats

Далее был произведен поиск пиков помощью программы MACS. Использовалась команда macs2 callpeak -t outfile_35_sorted.bam -n chipseq_chunk49 --nomodel. Были получены следующие файлы: outfile_35_peaks.narrowPeak, outfile_35_peaks.xls и outfile_35_summits.bed. Всего найдено 9 пиков. Ни один из них не лежит в области гена. Их расположение можно посмотреть на рисунках:

task_3/1.png

task_3/2.png

Здесь можно посмотреть координаты каждого из пиков:

task_3/3.png

  1. Поиск сигналов TATA-бокс связывающего белка (TBP) в геноме человека

С помощью геномного браузера UCSC были проанализированы результаты ChIP-seq анализа для TBP в клеточной линии H1-hESC. Были найдены три гена, перед которыми есть ТАТА бокс, и один перед которым ТАТА бокса нет. Далее приведены сведения о наличии-отсутствии ТАТА бокса и изображения расположения генов.

  1. ITGB1 chr10:33189246-33246822 Exon 1/16 Minus strand No TATA-box

5.png

  1. NRP1 chr10:33466419-33623833 neuropilin-1 isoform d precursor Exon 17/17 Minus strand TATA box present

6.png

  1. CCDC7 chr10:32856651-33171792 uncharacterized protein C10orf68 isoform b ТАТА box present Plus strand Exon 23/23

7.png

  1. EPC1 chr10:32556644-32636146 enhancer of polycomb homolog 1 isoform a ТАТА box present Minus strand Exon 15/15

8.png