Ресеквенирование. Поиск полиморфизмов у человека

Номер хромосомы: 21.
Команды:
cd /nfs/srv/databases/ngs
mkdir ./vera.sdrv
cp ./Human/chr21.fasta ./vera.sdrv
cd ./vera.sdrv
hisat2-build chr21.fasta chr21
cp ../Human/reads/chr21.fastq .
fastqc chr21.fastq
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr21.fastq 21out.fastq TRAILING:20
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 21out.fastq 21outf.fastq MINLEN:50
fastqc 21outf.fastq
hisat2 -x chr21 -U 21outf.fastq --no-spliced-alignment --no-softclip -S 7out.sam
samtools view 7out.sam -b -o aln.bam
samtools sort aln.bam -T temp -o sorted.bam
samtools index sorted.bam
samtools mpileup -uf chr21.fasta sorted.bam -o snp.bcf
bcftools call -cv snp.bcf -o snp.vcf
annotate_variation.pl -filter -out rs.annovar -build hg19 -dbtype snp138 snp.annovar ../../annovar/humandb.old/
annotate_variation.pl -out 1 -build hg19 snp.annovar ../../annovar/humandb.old/
annotate_variation.pl -filter -dbtype 1000g2014oct_all -build hg19 -out 2 snp.annovar ../../annovar/humandb.old/
annotate_variation.pl -regionanno -build hg19 -out 3 -dbtype gwasCatalog snp.annovar ../../annovar/humandb.old/
annotate_variation.pl snp.annovar ../../annovar/humandb.old/ -filter -dbtype clinvar_20150629 -build hg19 -out 4

Исходное количество чтений: 8158

График
Рис. 1. FastQC. Качество исходных чтений.

Количество чтений после триммирования: 7858

График
Рис. 2. FastQC. Качество чтений после тримминга.

Видно, что качество прочтений на участках наибольшей длины улучшилось. 4% чтений отсеялось - как раз тех, у которых было плохое качество конечных оснований. Я считаю, что проведение тримминга оправдано.
99.41% чтений картировано на геном.
Вывод: качество картирования высокое.

SNPs or indels (Табл. 1):

Табл. 1.
n Координата Референс Чтение Тип полиморфизма Глубина покрытия Качество чтений
1 16334658 С Т замена (SNP) 16 166
2 45397408 CTGTGT CTGT делеция (индель) 7 3.2
3 45389261 A G замена (SNP) 15 98

Всего в файле .vcf оказалось 6 инделей и 81 SNP.
60 SNP имеют rs - идентификационный номер, назначаемый NCBI.
SNP встречаются в генах UBASH3A, AGPAT3, NRIP1.
Среднее качество SNP: 55,08; медиана: 11,34
Среднее покрытие: 7,01; медиана: 2
По усреднённым параметрам видно, что качество страдает.
Типы SNP из RefSeq и количество исследуемых SNP, попавших в ту или иную группу:

exonic 4
splicing 0
ncRNA 0
UTR5 0
UTR3 9
intronic 68
upstream 0
dowmstream 0
intergenic 0

Были обнаружены 3 SNP, приведшие к синонимичным заменам, и 1 - к несинонимичной (UBASH3A:NM_018961:exon1:c.A52G:p.S18G).
Клиническая аннотация:

gwasCatalog     Name=Cognitive performance      chr21   16340289
gwasCatalog     Name=Type 1 diabetes    chr21   43836390       
gwasCatalog     Name=Phospholipid levels (plasma)       chr21   45404338

Видно, что замены влияют на клиническую картину: одна затрагивает когнитивные функции, другая способствует развитию диабета 1-ого типа, а третья влияет на уровни фосфолипидов в плазме.
Clinvar ничего не нашёл.
Средняя встречаемость SNP составляет 0.393 (взяла из аннотации 1000Genomes значение частоты для каждого и посчитала среднее).