Картирование и подсчет чтений RNA-seq
Картирование ридов на хромосому 5 и подсчет чтений
fastqc chr5.1.fastq | Проверка качества чтений |
---|---|
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr5.1.fastq chr5_trimmed.fastq TRAILING:20 MINLEN:50 | Очистка чтений |
fastqc chr5_trimmed.fastq | Проверка качества после очистки чтений |
hisat2 -x chr5 -U chr5_trimmed.fastq -S chr5_align.sam --no-softclip | Выравнивание прочтений и референса |
samtools view -b chr5_align.sam -o chr5_align.bam | Перевод выравнивания в бинарный формат |
samtools sort chr5_align.bam chr5_align_sorted | Сортировка выравнивания по координате в референсе |
samtools index chr5_align_sorted.bam | Индексирование отсортированного файла |
htseq-count -f bam chr5_align.bam -i gene_id -s no gencode.v19.chr_patch_hapl_scaff.annotation.gtf > counts.txt | Подсчет чтений |
rep -wv 0 counts.txt > counts_notzero.txt | Создание файла с числом чтений только для генов, на которые чтения в принципе были картированы. |
Анализ качества и очистка чтений.
Исходно было получено 24156 чтений. Качество чтений до очистки отображено на Рис. 1. С помощью Trimmomatic с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20, после чего оставлены только чтения длиной не меньше 50 нуклеотидов. После очистки осталось 24051 ридов. Качество чтений после очистки отображено на Рис. 2.
Картирование ридов и подсчет чтений.
23563 (97.93%) чтений были картированы на хромосому 5.
Для подсчета чтений была испольована программа htseq-count, имеющая в т.ч. следующие параметры:
-f {sam,bam}: формат входного файла.
-s {yes, no, reverse}: к какой цепи относятся риды.
-i: GFF атрибут, который используется в качестве feature ID (по умолчанию gene_id, подходящий для Ensembl
GTF файлов).
-m {union,intersection-strict,intersection-nonempty}: что делать с ридами, попадающими на несколько генов.
Из них 22438 - на ген ENSG00000181163.9, 314 - на ENSG00000249353.2, 791 не ложатся ни на какой ген, 20 выравниваются
неоднозначно. Не ложащиеся на гены чтения могут быть результатом загрязнения проб, остатками праймеров
или поли-А-хвоста.
ENSG00000181163.9 - ген нуклеофозмина 1, ENSG00000249353.2 - псевдоген нуклеофозмина. Нуклеофозмин - ядрышковый
белок, который перемещается между ядром и цитоплазмой и принимает участие во множестве процессов, таких как
биогенез рибосом, ремоделирование хроматина, регуляция митоза, поддержание стабильности
генома, репарация ДНК и транскрипция.