Команда | Что делает | Входной файл | Выходной файл |
---|---|---|---|
fastqc chr4.fastq | Контроль качества чтений | chr4.fastq | chr4_fastqc.zip chr4_fastqc.html |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr4.fastq out0.fastq TRAILING:20 | Удаление нуклеотидов плохого качества (Q<20) с конца | chr4.fastq | out0.fastq |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 out0.fastq out.fastq MINLEN:50 | Удаление чтений длиной меньше 50 нуклеотидов | out0.fastq | out.fastq |
fastqc out.fastq | Контроль качества чтений | out.fastq | out_fastqc.zip out_fastqc.html |
Количество ридов уменьшилось с 5810 до 5715. Отсеялись чтения короче 50 нуклеотидов и чтения плохого качества (Q<20, где Q = 10*lg(p), Q - качество прочтения, p - вероятность ошибки в данном нуклеотиде)
Команда | Что делает | Входной файл | Выходной файл |
---|---|---|---|
hisat2-build chr4.fasta chr4 | Индексирует референсную последовательность | chr4.fasta | chr4.1.ht2 chr4.2.ht2 chr4.3.ht2 chr4.4.ht2 chr4.7.ht2 chr4.8.ht2 |
hisat2 -x chr4 -U out.fastq -S sam1.sam --no-spliced-alignment --no-softclip | Построение выравнивания прочтений и референса | out.fastq | sam1.sam |
samtools view sam1.sam -b >> bam1.bam | Перевод выравнивания чтений с референсом в бинарный формат .bam | sam1.sam | bam1.bam |
samtools sort bam1.bam bam2 | Сортировка выравнивания чтений с референсом по координате начала чтения в референсе | bam1.bam | bam2.bam |
samtools index bam2.bam | Индексация отсортированного .bam файла | bam2.bam | bam2.bam.bai |
Выдача программы hisat2:
5715 reads; of these: 5715 (100.00%) were unpaired; of these: 19 (0.33%) aligned 0 times 5695 (99.65%) aligned exactly 1 time 1 (0.02%) aligned >1 times 99.67% overall alignment rate
На геном откартировано 5715 ридов, все они непарные.
5695 из них выровнены ровно 1 раз, 19 - ни одного, 1 - больше одного раза.
Команда | Что делает | Входной файл | Выходной файл |
---|---|---|---|
samtools mpileup -uf chr4.fasta -g -o snp.bcf bam2.bam | Создание файла с полиморфизмами | chr4.fasta bam2.bam |
snp.bcf |
bcftools call -cv -o snp2.vcf snp.bcf | Файл со списком отличий между референсом и чтениями | snp.bcf | snp2.vcf |
convert2annovar.pl -format vcf4 snp2.vcf > chr4.avinput | Файл для программы annovar | snp2.vcf | chr4.avinput |
annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 chr4.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по Dbsnp | ||
annotate_variation.pl -out chr4_refgene -build hg19 chr4.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по Refgene | ||
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000g chr4.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по 1000 Genomes | ||
annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog chr4.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по GWAS | ||
annotate_variation.pl chr4.avinput -filter -dbtype clinvar_20140211 -buildver hg19 -out clinvar /nfs/srv/databases/annovar/humandb.old/ | Аннотация по ClinVar |
Координата | Тип полиморфизма | Референс | Риды | Глубина покрытия | Качество чтения Q |
---|---|---|---|---|---|
chr4:68458937 | Замена | G | C | 87 | 225.009 |
chr4:68468036 | INDEL | c | cAT | 1 | 22.4955 |
chr4:187165891 | INDEL | gttttt | gtttt | 2 | 3.66479 |
Гены, в которые попали snp: KLKB1 - 18 snp (kallikrein B1) MEPE - 16 snp (matrix extracellular phosphoglycoprotein) STAP1 - 12 snp (signal transducing adaptor family member 1) KIAA0922 - 3 snp (Transmembrane protein 131-like) Делит snp по категориям: intronic - 39 snp intergenic - 3 snp exonic - 3 snp downstream - 2 snp (на расстоянии 1kb от конца транскриптициив сторону 3' конца) UTR3 - 1 snp (snp в 3'-нетранслируемой области)3. 1000 Genomes
© Антоненкова Юлия, 2017