Ресеквенирование. Поиск полиморфизмов у человека
Номер хромосомы: 21.
Команды:
cd /nfs/srv/databases/ngs
mkdir ./vera.sdrv
cp ./Human/chr21.fasta ./vera.sdrv
cd ./vera.sdrv
hisat2-build chr21.fasta chr21
cp ../Human/reads/chr21.fastq .
fastqc chr21.fastq
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr21.fastq 21out.fastq TRAILING:20
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 21out.fastq 21outf.fastq MINLEN:50
fastqc 21outf.fastq
hisat2 -x chr21 -U 21outf.fastq --no-spliced-alignment --no-softclip -S 7out.sam
samtools view 7out.sam -b -o aln.bam
samtools sort aln.bam -T temp -o sorted.bam
samtools index sorted.bam
samtools mpileup -uf chr21.fasta sorted.bam -o snp.bcf
bcftools call -cv snp.bcf -o snp.vcf
annotate_variation.pl -filter -out rs.annovar -build hg19 -dbtype snp138 snp.annovar ../../annovar/humandb.old/
annotate_variation.pl -out 1 -build hg19 snp.annovar ../../annovar/humandb.old/
annotate_variation.pl -filter -dbtype 1000g2014oct_all -build hg19 -out 2 snp.annovar ../../annovar/humandb.old/
annotate_variation.pl -regionanno -build hg19 -out 3 -dbtype gwasCatalog snp.annovar ../../annovar/humandb.old/
annotate_variation.pl snp.annovar ../../annovar/humandb.old/ -filter -dbtype clinvar_20150629 -build hg19 -out 4
Исходное количество чтений: 8158
![График](readsin.png)
Количество чтений после триммирования: 7858
![График](readsout.png)
Видно, что качество прочтений на участках наибольшей длины улучшилось. 4% чтений отсеялось - как раз тех, у которых было плохое качество конечных оснований. Я считаю, что проведение тримминга оправдано.
99.41% чтений картировано на геном.
Вывод: качество картирования высокое.
SNPs or indels (Табл. 1):
n | Координата | Референс | Чтение | Тип полиморфизма | Глубина покрытия | Качество чтений |
1 | 16334658 | С | Т | замена (SNP) | 16 | 166 |
2 | 45397408 | CTGTGT | CTGT | делеция (индель) | 7 | 3.2 |
3 | 45389261 | A | G | замена (SNP) | 15 | 98 |
Всего в файле .vcf оказалось 6 инделей и 81 SNP.
60 SNP имеют rs - идентификационный номер, назначаемый NCBI.
SNP встречаются в генах UBASH3A, AGPAT3, NRIP1.
Среднее качество SNP: 55,08; медиана: 11,34
Среднее покрытие: 7,01; медиана: 2
По усреднённым параметрам видно, что качество страдает.
Типы SNP из RefSeq и количество исследуемых SNP, попавших в ту или иную группу:
exonic 4 splicing 0 ncRNA 0 UTR5 0 UTR3 9 intronic 68 upstream 0 dowmstream 0 intergenic 0
Были обнаружены 3 SNP, приведшие к синонимичным заменам, и 1 - к несинонимичной (UBASH3A:NM_018961:exon1:c.A52G:p.S18G).
Клиническая аннотация:
gwasCatalog Name=Cognitive performance chr21 16340289 gwasCatalog Name=Type 1 diabetes chr21 43836390 gwasCatalog Name=Phospholipid levels (plasma) chr21 45404338
Видно, что замены влияют на клиническую картину: одна затрагивает когнитивные функции, другая способствует развитию диабета 1-ого типа, а третья влияет на уровни фосфолипидов в плазме.
Clinvar ничего не нашёл.
Средняя встречаемость SNP составляет 0.393 (взяла из аннотации 1000Genomes значение частоты для каждого и посчитала среднее).