Командная строка | Функция |
fastqc chr20.1.fastq |
Обработка FastQC |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr20.1.fastq chr20.1_trim.fastq TRAILING:20 MINLEN:50 |
Обрезание концов |
hisat2-build chr20.fasta indexed |
Индексирование |
hisat2 -x indexed -U chr20.1_trim.fastq -S chr20.1_aligntoref.sam --no-softclip |
Картирование чтений из fastq (по индексированной последовательности) |
samtools view -b chr20.1_aligntoref.sam -o chr20.1_align.bam |
Конвертнация в .bam |
samtools sort chr20.1_align.bam chr20.1_align_sorted |
Сортировка по координате в начале чтения |
samtools index chr20.1_align_sorted.bam |
Индексация отсортированного .bam |
htseq-count -i gene_id -s no -m union -f bam chr20.1_align_sorted.bam /nfs/srv/databases/ngs/Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf -o count.sam >> ready.txt |
Подсчитывает чтения по указанной разметке Опции: -f: формат входного файла -s: специфичность по цепи -i: атрибут разметки для feature -m: способ разрешения случаев перекрываний нескольких генов |
grep -E -v '0$' ready.txt |
Вытаскивает строки с попаданием чтений на гены |
До обрезки:
После обрезки:
Input Reads: 3565 Surviving: 3530 (99,02%) Dropped: 35 (0,98%)
В результате ~99% сохранились, что не особо отличаетя от изначальных данных.
98.81% чтений были картированы на хромосому, качество можно считать довольно высоким
3530 reads; of these: 3530 (100.00%) were unpaired; of these: 42 (1.19%) aligned 0 times 3488 (98.81%) aligned exactly 1 time 0 (0.00%) aligned >1 times 98.81% overall alignment rate
ENSG00000125835.13 2081 ENSG00000251806.1 4 __no_feature 274 __ambiguous 1129 __not_aligned 42
274 чтения не попали в гены, для 1129 возникла спорная ситуация (например, попадание в 2 гена одновременно), а 42 чтения не были выровнены.
Белок, кодируемый геном ENSG00000125835.13, является одним из нескольких ядерных белков, которые часто встречаются среди мелких частиц рибонуклеопротеинов U1, U2, U4 / U6 и U5 (snRNP). Эти snRNPs участвуют в сплайсинге пре-мРНК, и кодированный белок также может играть роль в сплайсинге пре-мРНК или структуре snRNP.