На главную

Практикум 12

Часть 1 : Подготовка чтений

Команда	Эффект от выполнения
fastqc chr21.1.fastq	Принимает чтения в формате fasctq и создает zip архив и html файл с их характеристиками (качество, длина, GC состав etc.) Для второй реплики было повторено аналогичное действие - html
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr21.1.fastq res_trimm_21_1.fastq MINLEN:50	Принимает на вход чтения в формате fastq и удаляет чтения с длиной не менее 50 нуклеотидов. Нуклеотиды с плохим качеством с конца не обрезались ввиду их отсутствия. Phred 33 обозначает особенности записи чтений софтом секвенатора (для новых данных phred всегда 33). В результате работы программы создается файл в формате fastq с обработанными чтениями res_trimm_21_1.fastq
fastqc res_trimm_21_1.fastq	Принимает обработанные в программе trimmonatic чтения в формате fasctq и создает zip архив и html файл с их характеристиками (качество, длина, GC состав etc.) Результат для второй реплики - html.

При чистке из всех чтений были оставлены те, что имеют длину не менее 50 нуклеотидов. Плохие нуклеотиды с конца не обрезались, потому что их не было в "необработанном варианте"
До чистки - 11221 чтений, после чистки - 11158 чтений. Для второй реплики до чистки 7650, после чистки - 7597.

box plot распределения качества секвенирования нуклеотидов для всех ридов из неотфильтрованного набора

box plot распределения качества секвенирования нуклеотидов для всех ридов из отфильтрованного набора

Часть 2 : Картирование чтений

Команда	Эффект от выполнения
hisat2-build chr21.fasta chr21_index_base	Программа принимает на вход последовательность хромосомы в формате fasta а затем создает проиндексированную базу для работы программ картировщиков ридов на геном.
hisat2 --no-softclip -x chr21_index_base -U res_trimm_21_1.fastq -S mapped_reads_1.sam	Программа принимает на вход файлы с проиндексированной последовательностью хромосомы и отфильтрованные риды в формате fastq, затем программа картирует риды на геном, запрещая подрезать риды с концов (--no-softclip). Результатом работы программы является файл в формате sam с описанием ридов и тех мест в геноме, куда они картировались. В отличии от прошлого практикума был убран параметр --no-spliced-alignment запрещающий разделять риды и картировать их на разные места генома. В прошлом практикуме мы анализировали риды полученные при секвенировании геномной ДНК, поэтому один рид картируется на конкретное место в геноме. В этом практикуме мы анализируем риды, полученные при секвенировании транскриптома, а это означает что два находящихся в пределах одного рида участка, могут картироваться на несколько отдаленные места генома из-за сплайсинга, поэтому параметр, запрещающий картировать части одного рида на разные места в геноме нужно убрать.
samtools view -b -o mapped_reads_1.bam mapped_reads_1.sam	Программа принимает откартированные риды в формате sam в формат bam для дальнейшей обработки программами.
samtools sort -T ./tmp/sorted.tmp -o sorted_reads_1.bam -O bam mapped_reads_1.bam	Сортирует файл с картированными ридами по тому месту, куда они откартировались в геноме в формате bam и записывает в файл.
samtools index sorted_reads_1.bam	Индексирует отсортированнные риды и записывает в файл sorted_reads_1.bam.bai

281 ридов из 11158 не было откартировано, 10877 откартировались на геном один раз. Для второй реплики 167 не откартировались ни разу, 7430 ридов откартировались один раз (всего 7597 ридов).

Команда

Эффект от выполнения

 htseq-count -f bam -s no -i gene_id -m intersection-nonempty sorted_reads_2.bam /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf -o counted_1.txt

Программа принимает на вход откартированнные и отсортированные риды в формате bam и используя файл с раметкой генома в формате gtf присваивает по порядку каждому риду либо ID гена в базе данных ensembl, либо если рид не откартировался на геном метку __not_aligned, либо если рид откартировался, но не на ген - метку __no_feature, либо ambiguous, если считается что рид откартировался на несколько генов одновременно, либо __too_low_aQual (только при задании параметра -a такой меткой помечаются риды с меньшим заданного качества выравнивания), либо __alignment_not_unique если рид откартировался на геном неоднозначно. Способ присваивания геномных меток зависит от значения параметра -m. В конце программа суммирует количество ридов получивших метки (кроме тех что получили свой gene_id) и представляет отчет.

Параметр -f bam указывает на формат входного файла с откартированными и отсортированными ридами, в моем случае он бинарный - bam
Параметр -i gene_id означает какой именно аттрибут будет использован для характеристики места картирования рида. Значение gene_id означает, что из столбца с аттрибутами в фалйле gtf для характеристики места картирования мы берем значение gene_id (так как разметка генома создана на основе ensembl, то там находятся id генов из этого геномного браузера), помимо этого можно было взять transcript_id value.
Параметр -m intersection-nonempty означает особенность присваивания риду той или иной метки. C таким значением этого параметра, программа присваивает риду gene_id, если рид хоть как-то перекрывается с геном (в том случае когда рид полностью лежит внутри гена Х и частично внутри гена У, риду присваивается gene_id гена Х). Если же рид полностью находится внутри двух проаннотированных генов одновременно, риду присваивается метка __ambiguous, а если картируется неоднозначно - метка __alignment_not_unique. Помимо такого значения параметра -m можно выбрать значение union, и он будет отличаться тем, что если рид любым образом захватывает несколько генов, ему присваивается метка __ambiguous. Также можно выбрать значение intersection-strict и тогда программа будет присваивать риду конкретный gene_id только если рид целиком лежит внутри этого гена.
Параметр -s означает цепь, в которой мы будем искать гены на которые картировались риды. Это полезно в том случае, если бы исследование было специфичным относительно цепи, с которой эти риды получены (были бы отброшены полученные по ошибке риды с другой цепи), но в нашем случае мы анализируем транскриптом и ничего не знаем о той цепи, с которой этот транскрипт получается, поэтолу нужно установит значение параметра no
Для первой реплики с данными параметрами скрипт нашел 408 ридов не откартировавшихся никуда (__no_feature), 281 неоткартированный рид (__not_aligned). Остальные риды программа приписала к трем разным генам: ENSG00000156256.10, ENSG00000156261.8, ENSG00000231125.2. (информация о том куда картированы риды записывается при помощи параметра -o counted_1.txt, подсчет ридов принадлежащих разным генам, определение и подсчет меток, присвоенных ридам производился при помощи функий bash: sort -u wc -l grep) Скорее всего те люди, которые делали это исследование хотели отсеквенировать матричную РНК гена CCT8 (chaperonin containing TCP1 subunit 8), и большая часть ридов, судя по картинке из IGV действительно ложится на экзоны этого гена. Но часть ридов легла на экзон находящегося рядом в геноме гена USP16 (ubiquitin specific peptidase 16) (но на прямой цепи, вероятно это часть мРНК CCT8 но за счет того что мы разрешали htseq-count рассматривать гены на любой из цепей, он определил риды 3'UTR CCT8 как часть гена USP16). Третий найденный ген это некодирующая РНК закодированная в интроне CCT8 - AF129075.5. Те чтения, что откартировались на геном, но не легли на границы генов просто находятся в 3'UTR гена CCT8 между его последним экзоном и геном USP16. CCT8 кодирует субъединицу шаперонина - сложного молекулярного комплекса напоминающего бочонок и имеющего внутри гидрофобную поверхность. Его функция заключается в помощи сворачиванию новосинтезированных белков.

Риды, картированные на геном

Сравнение реплик

Количество чего-нибудь	Первая реплика	Вторая реплика
Ридов всего после чистки	11158	7597
Ридов откартировавшихся на геном	10877	7430
Ридов не откартировавшихся на геном	281	167
Ридов откартировавшихся на гены	10469	7073
Ридов откартировавшихся на ENSG00000156256.10	111	125
Ридов откартировавшихся на ENSG00000156261.8	10337	6924
Ридов откартировавшихся на ENSG00000231125.2	21	24

Мы видим что в первой реплике относительно второй примерно в полтора раза больше ридов. С тем же коэффицентом пропорциональности (при увеличении числа ридов) увеличивается только число ридов, картирующихся на CCT8, что подтверждает выдвинутое ранее предположение об мРНК этого гена как целевой мРНК.

Другой способ подсчета чтений

Количество чего-нибудь	intersection-nonempty	intersection-strict
Ридов откартировавшихся на геном	10877	10877
Ридов не откартировавшихся на геном	281	281
Ридов откартировавшихся на гены	10469	10009
Ридов откартировавшихся на ENSG00000156256.10	111	110
Ридов откартировавшихся на ENSG00000156261.8	10337	9878
Ридов откартировавшихся на ENSG00000231125.2	21	21

Так как параметр intersection-strict требует полного пересечения рида с геном, количество ридов картирующихся на гены уменьшается.