Команда | Что делает | Входной файл | Выходной файл |
---|---|---|---|
fastqc chr4.1.fastq | Контроль качества чтений | chr4.1.fastq | chr4.1_fastqc.zip chr4.1_fastqc.html |
Команда | Что делает | Входной файл | Выходной файл |
---|---|---|---|
hisat2-build chr4.fasta chr4 | Индексирует референсную последовательность | chr4.fasta | chr4.1.ht2 chr4.2.ht2 chr4.3.ht2 chr4.4.ht2 chr4.7.ht2 chr4.8.ht2 |
hisat2 -x chr4 -U chr4.1.fastq -S t2_1.sam --no-softclip | Построение выравнивания прочтений и референса (убрала параметр --no-spliced-alignment, так как в данном случае рассматривается зрелая РНК, в которой рядом могут находиться участки, которые изначально не были соседними. | chr4.1.fastq | pr12_t2_1.sam |
samtools view pr12_t2_1.sam -b >> pr12_t2_2.bam | Перевод выравнивания чтений с референсом в бинарный формат .bam | pr12_t2_1.sam | pr12_t2_2.bam |
samtools sort pr12_t2_2.bam pr12_t2_3 | Сортировка выравнивания чтений с референсом по координате начала чтения в референсе | pr12_t2_2.bam | pr12_t2_3.bam |
samtools index pr12_t2_3.bam | Индексация отсортированного .bam файла | pr12_t2_3.bam | pr12_t2_3.bam.bai |
samtools idxstats pr12_t2_3.bam > pr12_t2_4.txt | Количество откартированных чтений | pr12_t2_3.bam | pr12_t2_4.txt |
2735 reads; of these: 2735 (100.00%) were unpaired; of these: 72 (2.63%) aligned 0 times 2663 (97.37%) aligned exactly 1 time 0 (0.00%) aligned >1 times 97.37% overall alignment rate
-f {sam,bam}, --format {sam,bam} формат принимаемого файла: 'sam' или 'bam' (default: sam) -s {yes,no,reverse}, --stranded {yes,no,reverse} указывает, являются ли данные специфичными для одной определенной цепи (default: yes). 'reverse' означает 'yes' с обратной интерпретацией цепей -i IDATTR, --idattr IDATTR GFF атрибут, используется как feature ID (default, suitable for Ensembl GTF files: gene_id) -m {union,intersection-strict,intersection-nonempty}, --mode {union,intersection-strict,intersection-nonempty} опция для перекрывающихся чтений (default: union)
Команда | Что делает | Входной файл | Выходной файл |
---|---|---|---|
htseq-count -s no -f bam pr12_t2_2.bam -i gene_id /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf > pr12_t4_htseq-count.out | Выдаёт количество ридов, выровненных с разными участками референса: -s no входные данные необязательно были с одной цепи; -m intersection-nonempty пересечение только не пустых feature | pr12_t2_2.bam | pr12_t4_htseq-count.out |
grep -wv 0 pr12_t4_htseq-count.out > pr12_t4_count_2.out | Выбирает строки, не оканчивающиеся на 0 | pr12_t4_htseq-count.out | pr12_t4_count_2.out |
ENSG00000071127.12 1884 WD repeat-containing protein, domain 1 ENSG00000223086.1 1 RNA, 5S ribosomal pseudogene 155 ENSG00000261490.1 2 novel transcript, overlapping WDR1 (clone RP11-448G15) __no_feature 776 __not_aligned 72Видно, что 776 ридов не легли в границы генов, а 72 не откартировались. При этом 1884 рид лег на ген ENSG00000071127 домена 1 белка WD repeat-containing protein, содержащего 9 WD повторов и участвующего в связывании актиновых филаментов. Ген имеет 18 альтернативных продуктов.
© Антоненкова Юлия, 2017