На главную

Практикум 12

Часть 1 : Подготовка чтений

Команда Эффект от выполнения
fastqc chr21.1.fastq 
Принимает чтения в формате fasctq и создает zip архив и html файл с их характеристиками (качество, длина, GC состав etc.) Для второй реплики было повторено аналогичное действие - html
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr21.1.fastq  res_trimm_21_1.fastq MINLEN:50
Принимает на вход чтения в формате fastq и удаляет чтения с длиной не менее 50 нуклеотидов. Нуклеотиды с плохим качеством с конца не обрезались ввиду их отсутствия. Phred 33 обозначает особенности записи чтений софтом секвенатора (для новых данных phred всегда 33). В результате работы программы создается файл в формате fastq с обработанными чтениями res_trimm_21_1.fastq
fastqc  res_trimm_21_1.fastq
Принимает обработанные в программе trimmonatic чтения в формате fasctq и создает zip архив и html файл с их характеристиками (качество, длина, GC состав etc.) Результат для второй реплики - html.

box plot распределения качества секвенирования нуклеотидов для всех ридов из неотфильтрованного набора

box plot распределения качества секвенирования нуклеотидов для всех ридов из отфильтрованного набора

Часть 2 : Картирование чтений

Команда Эффект от выполнения
hisat2-build chr21.fasta chr21_index_base
Программа принимает на вход последовательность хромосомы в формате fasta а затем создает проиндексированную базу для работы программ картировщиков ридов на геном.
hisat2  --no-softclip -x chr21_index_base -U res_trimm_21_1.fastq -S mapped_reads_1.sam
Программа принимает на вход файлы с проиндексированной последовательностью хромосомы и отфильтрованные риды в формате fastq, затем программа картирует риды на геном, запрещая подрезать риды с концов (--no-softclip). Результатом работы программы является файл в формате sam с описанием ридов и тех мест в геноме, куда они картировались. В отличии от прошлого практикума был убран параметр --no-spliced-alignment запрещающий разделять риды и картировать их на разные места генома. В прошлом практикуме мы анализировали риды полученные при секвенировании геномной ДНК, поэтому один рид картируется на конкретное место в геноме. В этом практикуме мы анализируем риды, полученные при секвенировании транскриптома, а это означает что два находящихся в пределах одного рида участка, могут картироваться на несколько отдаленные места генома из-за сплайсинга, поэтому параметр, запрещающий картировать части одного рида на разные места в геноме нужно убрать.
 samtools view -b -o mapped_reads_1.bam mapped_reads_1.sam
Программа принимает откартированные риды в формате sam в формат bam для дальнейшей обработки программами.
samtools sort -T ./tmp/sorted.tmp -o sorted_reads_1.bam -O bam  mapped_reads_1.bam
Сортирует файл с картированными ридами по тому месту, куда они откартировались в геноме в формате bam и записывает в файл.
samtools index sorted_reads_1.bam
Индексирует отсортированнные риды и записывает в файл sorted_reads_1.bam.bai
Команда Эффект от выполнения
 htseq-count -f bam -s no -i gene_id -m intersection-nonempty sorted_reads_2.bam /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf -o counted_1.txt
Программа принимает на вход откартированнные и отсортированные риды в формате bam и используя файл с раметкой генома в формате gtf присваивает по порядку каждому риду либо ID гена в базе данных ensembl, либо если рид не откартировался на геном метку __not_aligned, либо если рид откартировался, но не на ген - метку __no_feature, либо ambiguous, если считается что рид откартировался на несколько генов одновременно, либо __too_low_aQual (только при задании параметра -a такой меткой помечаются риды с меньшим заданного качества выравнивания), либо __alignment_not_unique если рид откартировался на геном неоднозначно. Способ присваивания геномных меток зависит от значения параметра -m. В конце программа суммирует количество ридов получивших метки (кроме тех что получили свой gene_id) и представляет отчет.

Риды, картированные на геном

Сравнение реплик

Количество чего-нибудь Первая реплика Вторая реплика
Ридов всего после чистки 11158 7597
Ридов откартировавшихся на геном 10877 7430
Ридов не откартировавшихся на геном 281 167
Ридов откартировавшихся на гены 10469 7073
Ридов откартировавшихся на ENSG00000156256.10 111 125
Ридов откартировавшихся на ENSG00000156261.8 10337 6924
Ридов откартировавшихся на ENSG00000231125.2 21 24

Другой способ подсчета чтений

Количество чего-нибудь intersection-nonempty intersection-strict
Ридов откартировавшихся на геном 10877 10877
Ридов не откартировавшихся на геном 281 281
Ридов откартировавшихся на гены 10469 10009
Ридов откартировавшихся на ENSG00000156256.10 111 110
Ридов откартировавшихся на ENSG00000156261.8 10337 9878
Ридов откартировавшихся на ENSG00000231125.2 21 21

© Кристина Перевощикова, 2017