Анализ транскриптомов

Анализ качества чтений

Команда: fastqc chr10.1.fastq
Результат:

Картирование чтений

Картирование: hisat2-build chr10.fasta chr10
Выравнивание: hisat2 --no-softclip -x chr10 -U chr10.1.fastq -S chr10_ali.sam
По сравнению с предыдущем выпавниванием, был убран параметр, запрещающий разрывное выравнивание, т. к. на этот раз мы работаем с РНК в которой имеют место перегруппировки.

Анализ выравнивания

Перевод в бинарный формат: samtools view chr10_ali.sam -b -o chr10_ali.bam
Сортировка: samtools sort -T /tmp/chr10_sorted -o chr10_sorted.bam chr10_ali.bam
Индексирование: samtools index chr10_sorted.bam
Информация о картировании: samtools idxstats chr10_sorted.bam
В результате оказалось 15257 картированых ридов и 205 некартированых.

Подсчет чтений

htseq-count -f bam -i gene_id -s no -m union chr10_sorted.bam gencode.v19.chr_patch_hapl_scaff.annotation.gtf > count.txt

Опции:
Параметр -f выставляем bam. -s нам необходим no. -i в нашем случае gene_id. -m я решил попробовать union: Таким образом попадание в ген будет засчитываться, даже если часть рида в него легла.

Анализ результатов


14643 ридов легли в ген DDX21 или DExD-box helicase 21. Он кодирует белок Nucleolar RNA helicase 2.
3 рида легли в ген RN7SL373P или RNA, 7SL, cytoplasmic 373, pseudogene. Он кодирует некодирующую РНК.
Ещё 611, видимо легли в некодирующие участки, а 205 были некартированы.