fastqc chr5.1.fastq | Проверяет качества чтений |
---|---|
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr5.1.fastq chr5_trimmed.fastq TRAILING:20 MINLEN:50 | Очищает чтения |
fastqc chr5_trimmed.fastq | Проверяет качество после очистки чтений |
hisat2 -x ../rupd -U chr5_trimmed.fastq -S chr5_align.sam --no-softclip | Выравниванивает прочтения и референс -x - индексированная референсная последовательность -U - файл с прочтениями -S - название выходного файла Нужно убрать --no-spliced-alignment, потому что мы работаем с последовательностью РНК-траскриптов |
samtools view -b chr5_align.sam -o chr5_align.bam | Переводит выравнивания в бинарный формат |
samtools sort chr5_align.bam chr5_align_sorted | Сортирует выравнивания по координате в референсе |
samtools index chr5_align_sorted.bam | Индексирует отсортированный файла |
htseq-count -f bam chr5_align.bam -i gene_id -s no ../../Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf > rupd.txt | Считает чтения Подсчет чтений. -i - индекс -s - цепь (yes или reverse или no) -f - формат входного файла (bam или sam) -m - способ подсчета: union; intersection-strict - если чтение легло на ген целиком; intersection-nonempty - если чтение имеет общую последовательность с геном |
До триммирования
Последовательностей: 24156
После триммирования
Последовательностей: 24051
24051 reads; of these: 24051 (100.00%) were unpaired; of these: 498 (2.07%) aligned 0 times 23543 (97.89%) aligned exactly 1 time 10 (0.04%) aligned >1 times 97.93% overall alignment rate
23563 (97.93%) ридов были картированы.
ENSG00000181163.9 22438 __no_feature 791 __not_aligned 498 ENSG00000249353.2 314
Большая часть прочтений (22438) выровнялась на ген ENSG00000181163.9 - ген нуклеофозмина 1 - белка, участвующего во множестве клеточных процесса, пролифрации клеток, делении центросом и т.д.