Картирование и подсчет чтений RNA-seq

Картирование ридов на хромосому 5 и подсчет чтений

Таблица 1. Использованные команды.
fastqc chr5.1.fastq Проверка качества чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr5.1.fastq chr5_trimmed.fastq TRAILING:20 MINLEN:50 Очистка чтений
fastqc chr5_trimmed.fastq Проверка качества после очистки чтений
hisat2 -x chr5 -U chr5_trimmed.fastq -S chr5_align.sam --no-softclip Выравнивание прочтений и референса
samtools view -b chr5_align.sam -o chr5_align.bam Перевод выравнивания в бинарный формат
samtools sort chr5_align.bam chr5_align_sorted Сортировка выравнивания по координате в референсе
samtools index chr5_align_sorted.bam Индексирование отсортированного файла
htseq-count -f bam chr5_align.bam -i gene_id -s no gencode.v19.chr_patch_hapl_scaff.annotation.gtf > counts.txt Подсчет чтений
rep -wv 0 counts.txt > counts_notzero.txt Создание файла с числом чтений только для генов, на которые чтения в принципе были картированы.

Анализ качества и очистка чтений.

Исходно было получено 24156 чтений. Качество чтений до очистки отображено на Рис. 1. С помощью Trimmomatic с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20, после чего оставлены только чтения длиной не меньше 50 нуклеотидов. После очистки осталось 24051 ридов. Качество чтений после очистки отображено на Рис. 2.

Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 1. Фрагмент выдачи FastQC до очистки.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 2. Фрагмент выдачи FastQC после очистки.

Картирование ридов и подсчет чтений.

23563 (97.93%) чтений были картированы на хромосому 5.

Для подсчета чтений была испольована программа htseq-count, имеющая в т.ч. следующие параметры:
-f {sam,bam}: формат входного файла.
-s {yes, no, reverse}: к какой цепи относятся риды.
-i: GFF атрибут, который используется в качестве feature ID (по умолчанию gene_id, подходящий для Ensembl GTF файлов).
-m {union,intersection-strict,intersection-nonempty}: что делать с ридами, попадающими на несколько генов.

Из них 22438 - на ген ENSG00000181163.9, 314 - на ENSG00000249353.2, 791 не ложатся ни на какой ген, 20 выравниваются неоднозначно. Не ложащиеся на гены чтения могут быть результатом загрязнения проб, остатками праймеров или поли-А-хвоста.

ENSG00000181163.9 - ген нуклеофозмина 1, ENSG00000249353.2 - псевдоген нуклеофозмина. Нуклеофозмин - ядрышковый белок, который перемещается между ядром и цитоплазмой и принимает участие во множестве процессов, таких как биогенез рибосом, ремоделирование хроматина, регуляция митоза, поддержание стабильности генома, репарация ДНК и транскрипция.