Страница двенадцатого практикума



4
fastqc chr5.1.fastq Проверяет качества чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr5.1.fastq chr5_trimmed.fastq TRAILING:20 MINLEN:50 Очищает чтения
fastqc chr5_trimmed.fastq Проверяет качество после очистки чтений
hisat2 -x ../rupd -U chr5_trimmed.fastq -S chr5_align.sam --no-softclip Выравниванивает прочтения и референс
-x - индексированная референсная последовательность
-U - файл с прочтениями
-S - название выходного файла
Нужно убрать --no-spliced-alignment, потому что мы работаем с последовательностью РНК-траскриптов
samtools view -b chr5_align.sam -o chr5_align.bam Переводит выравнивания в бинарный формат
samtools sort chr5_align.bam chr5_align_sorted Сортирует выравнивания по координате в референсе
samtools index chr5_align_sorted.bam Индексирует отсортированный файла
htseq-count -f bam chr5_align.bam -i gene_id -s no ../../Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf > rupd.txt Считает чтения
Подсчет чтений.
-i - индекс
-s - цепь (yes или reverse или no)
-f - формат входного файла (bam или sam)
-m - способ подсчета:
union;
intersection-strict - если чтение легло на ген целиком;
intersection-nonempty - если чтение имеет общую последовательность с геном

До триммирования
Последовательностей: 24156 g

После триммирования
Последовательностей: 24051
g


                                             
24051 reads; of these:
  24051 (100.00%) were unpaired; of these:
    498 (2.07%) aligned 0 times
    23543 (97.89%) aligned exactly 1 time
    10 (0.04%) aligned >1 times
97.93% overall alignment rate
                 

23563 (97.93%) ридов были картированы.

ENSG00000181163.9	22438
__no_feature		791
__not_aligned		498
ENSG00000249353.2	314

Большая часть прочтений (22438) выровнялась на ген ENSG00000181163.9 - ген нуклеофозмина 1 - белка, участвующего во множестве клеточных процесса, пролифрации клеток, делении центросом и т.д.