В этом практикуме мы должны были проанализировать одноконцевые чтения RNA-seq.
hisat2-build -p 10 chr9.fna chr9
.ht2
бинарных файлов.
fastqc SRR2015719_1.fastq.gz
- отчётjava -jar /usr/share/java/trimmomatic.jar SE -threads 20 SRR2015719_1.fastq.gz trimadapt.fastq.gz ILLUMINACLIP:adapter.fasta:2:30:10 MINLEN:99 2> trimadapt.err
fastqc trimadapt.fastq.gz
(файл)hisat2 -p 10 -x chr9 -k 3 -U trimadapt.fastq.gz > rna.sam 2> rna_log.txt
(лог)samtools sort -O bam -@ 10 rna.sam -o rna.bam
samtools index -b -@ 10 rna.bam rna.bai
samtools flagstat -@ 10 rna.bam > rna_flag.txt
(файл)samtools faidx chr9.fna -o chr9.fai
samtools view -h rna.bam NC_000009.12 > rna.chr9.sam
samtools view -bS rna.chr9.sam > rna.chr9.bam
samtools flagstat -@ 10 rna.chr9.bam > rna_chr9_flag.txt
(файл)samtools index -b -@ 10 rna.chr9.bam rna_chr9.bai
head gencode.chr9.gtf
:##description: evidence-based annotation of the human genome (GRCh38), version 35 (Ensembl 101) ##provider: GENCODE ##contact: gencode-help@ebi.ac.uk ##format: gtf ##date: 2020-06-03 NC_000009.12 HAVANA gene 12134 13783 . + . gene_id "ENSG00000236875.3"; gene_type "unprocessed_pseudogene"; gene_name "DDX11L5"; level 2; hgnc_id "HGNC:37106"; havana_gene "OTTHUMG00000019419.2"; NC_000009.12 HAVANA transcript 12134 13783 . + . gene_id "ENSG00000236875.3"; transcript_id "ENST00000421620.2"; gene_type "unprocessed_pseudogene"; gene_name "DDX11L5"; transcript_type "unprocessed_pseudogene"; transcript_name "DDX11L5-201"; level 2; transcript_support_level "NA"; hgnc_id "HGNC:37106"; ont "PGO:0000005"; tag "basic"; havana_gene "OTTHUMG00000019419.2"; havana_transcript "OTTHUMT00000051447.2"; NC_000009.12 HAVANA exon 12134 12190 . + . gene_id "ENSG00000236875.3"; transcript_id "ENST00000421620.2"; gene_type "unprocessed_pseudogene"; gene_name "DDX11L5"; transcript_type "unprocessed_pseudogene"; transcript_name "DDX11L5-201"; exon_number 1; exon_id "ENSE00001680583.2"; level 2; transcript_support_level "NA"; hgnc_id "HGNC:37106"; ont "PGO:0000005"; tag "basic"; havana_gene "OTTHUMG00000019419.2"; havana_transcript "OTTHUMT00000051447.2"; NC_000009.12 HAVANA exon 12291 12340 . + . gene_id "ENSG00000236875.3"; transcript_id "ENST00000421620.2"; gene_type "unprocessed_pseudogene"; gene_name "DDX11L5"; transcript_type "unprocessed_pseudogene"; transcript_name "DDX11L5-201"; exon_number 2; exon_id "ENSE00001759901.2"; level 2; transcript_support_level "NA"; hgnc_id "HGNC:37106"; ont "PGO:0000005"; tag "basic"; havana_gene "OTTHUMG00000019419.2"; havana_transcript "OTTHUMT00000051447.2"; NC_000009.12 HAVANA exon 12726 12834 . + . gene_id "ENSG00000236875.3"; transcript_id "ENST00000421620.2"; gene_type "unprocessed_pseudogene"; gene_name "DDX11L5"; transcript_type "unprocessed_pseudogene"; transcript_name "DDX11L5-201"; exon_number 3; exon_id "ENSE00002213115.2"; level 2; transcript_support_level "NA"; hgnc_id "HGNC:37106"; ont "PGO:0000005"; tag "basic"; havana_gene "OTTHUMG00000019419.2"; havana_transcript "OTTHUMT00000051447.2";Файл формата .gtf состоит из шапки и тела. Шапка файла содержит информации о версии, базе данных и дате публикации. Тело файла состоит из таблицы со следующими колонками:
Таблица 1. Описание первых 9 столбцов тела файла в формате GTF
№ | Название | Смысл |
1 | seqname | Название последовательности |
2 | source | База данных - источник информации |
3 | feature | Особенности гена |
4 | start | Координата начала гена |
5 | end | Координата конца гена |
6 | score | Вес элемента |
7 | strand | Направление элемента относительно цепи |
8 | frame | Рамка считывания (какому основанию участка соответствует первое основание кодона рамки: первому (0), второму (1) или третьему (2)) |
9 | attribute | Дополнительная информация |
awk '{$3 == "gene"}' gencode.chr9.gtf | wc -l
- всего их 2330 (из 67 924 строк таблицы)htseq-count -f bam -s no -m union -t exon rna.chr9.bam gencode.chr9.gtf -o rna_chr9.sam 1> htseq_log_cons.txt 2> htseq_log_err.txt
(файл)wc -l htseq_log_cons.txt | head -n $lines-5 htseq_log_cons.txt | awk '{s+=$2}END{print s}'
tail htseq_log_cons.txt
- их 398 233.