Практикум 11. Поиск полиморфизмов

Task 1

Работа велась по сборке hg19 по 12 хромосоме. Использованные команды:

fastqc chr12.fastq
Процедура проверки качества ридов
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
 SE -phred33 chr12.fastq new_chr12.fastq TRAILING:20 MINLEN:50
Отброс ридов малой длины, обрезка с конца ридов оснований плохого качества
fastqc new_chr12.fastq
Проверка качества ридов после триммирования
hisat2-build chr12.fasta chr12
Индексирование референса
hisat2 -x chr12 -U new_chr12.fastq --no-spliced-alignment --no-softclip -S
 chr12.sam
Выравнивание ридов на референс
samtools view -b -o chr12.bam chr12.sam
Перевод картирования в бинарный формат
samtools sort chr12.bam chr12_s
Сортировка картирования
samtools index chr12_s.bam
Индексирование картирования
samtools flagstat chr12_s.bam > chr12_s_stat.txt
Статистика картирования
samtools mpileup -uf chr12.fasta chr12_s.bam -o chr12_pol.bcf
Поиск полиморфизмов
bcftools call -cv chr12_pol.bcf -o chr12_pol.vcf
Перевод файла с полиморфизмами в читаемый формат
vcftools --vcf chr12_pol.vcf --remove-indels --recode --out chr12_snp.vcf
Оставить только snp
convert2annovar.pl -format vcf4 chr12_snp.vcf.recode.vcf -outfile
 chr12_snp.avinput
Перевод в читаемый для annovar формат
annotate_variation.pl -out chr12_ann_refgene -build hg19 -dbtype refGene
 chr12_snp.avinput /nfs/srv/databases/annovar/humandb.old/
Поиск snp по RefGene
annotate_variation.pl -filter -out chr12_ann_snp -build hg19 -dbtype
 snp138 chr12_snp.avinput /nfs/srv/databases/annovar/humandb.old/
Поиск snp по SNP
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out
 chr12_ann_1000genomes chr12_snp.avinput /nfs/srv/databases/annovar/humandb.old/
Поиск snp по 1000 Genomes
annotate_variation.pl -regionanno -build hg19 -out chr12_ann_gwas -dbtype
 gwasCatalog chr12_snp.avinput /nfs/srv/databases/annovar/humandb.old/
Поиск snp по GWAS
annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 -out
 chr12_ann_clinvar chr12_snp.avinput /nfs/srv/databases/annovar/humandb.old/
Поиск snp по ClinVar

Мы хотели триммировать риды, потому что не все основания в них были хорошего качества. Поэтому мы обрезали эти основания.

Качество ридов до триммирования:

Качество ридов после триммирования:

Есть еще такие картинки:

    

Остальные графики не приведены, ибо разницы никакой нет. Доля плохих ридов была ничтожна, как попытки Соколова облегчить себе участь. Значит, кроме непосредственно качества оснований, ничего особо не улучшилось и теоретически можно было и не триммировать.

До триммирования: 7157 ридов. После триммирования: 7023 ридов. По статистике flagstat, картировано на референс 7003 чтения (99.72%). Статистика hisat2:

7023 reads; of these:
7023 (100.00%) were unpaired; of these:
20 (0.28%) aligned 0 times
7003 (99.72%) aligned exactly 1 time
0 (0.00%) aligned >1 times

Картировалось хорошо, потому что однозначно.

Task 2

В результате поиска полиморфизмов инделей не обнаружилось, все 35 полиморфизмов были snp. Вот 3 достаточно интересных snp:

#CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO	FORMAT	chr12_s.bam
chr12	9833628	.	C	T	221.999	.	DP=70;VDB=0.496659;SGB=-0.693147;RPB=1;MQB=1;MQSB=1;BQB=1;MQ0F=0;AF1=1;AC1=2;
DP4=0,1,11,54;MQ=60;FQ=-184.988;PV4=1,0.23432,1,0.237727	GT:PL	1/1:255,158,0
chr12 66343810	.	C	T	10.4247	.	DP=1;SGB=-0.379885;MQ0F=0;AF1=1;AC1=2;DP4=0,0,1,0;MQ=60;FQ=-29.9905	GT:PL	
1/1:40,3,0
chr12 66359752	.	C	A	221.999	.	DP=133;VDB=0.00905334;SGB=-0.693147;RPB=0.941835;MQB=1;MQSB=1;BQB=0.99997;
MQ0F=0;AF1=1;AC1=2;DP4=2,1,54,74;MQ=60;FQ=-281.989;PV4=0.575578,0.383652,1,0.295616	GT:PL	1/1:255,255,0

Как можно заметить, качество 1 и 3 snp очень хорошее (221.999), а у 2 - не очень (10.4247). Похожая ситуация с глубиной чтения: хорошая у 1 (70) и 3 (133) и нехорошая (всего 1) у 2.

В файлах, полученных на основе данных RefGene, были такие категории snp:

exonic3
intronic25
ncRNA-intronic1
UTR36

В базе данных SNP138 из 35 полиморфизмов нашлось 28 (rs).

Из экзонных 2 были несинонимичны (1 и 3 строки) и 1 синонимичный (4 строка). Первый (9822387:C -> G, 1 экзон) приводит к 2 изменениям в любых белковых продуктах гена CLEC2D: c.C57G:p.N19K. Второй (9833524: C -> G, 2 экзон) приводит к 2 изменениям в белковых продуктах гена CLEC2D:c.C67G:p.L23V.

SNP попали в гены RPSAP52, CLEC2D, HMGA2, TMEM263. (согласно RefGene). Средняя частота найденных snp - 0,341781849 (согласно 1000 Genomes).

Клиническая аннотация (GWAS) нашла 4 snp. ClinVar не нашел ничего.

Name=Type 1 diabetes      chr12   9833628   9833628  C       T       hom     221.999
Name=Brain structure      chr12  66343810  66343810  C       T       hom     10.4247
Name=Height               chr12  66359752  66359752  C       A       hom     221.999
Name=Bone mineral density chr12 107367225 107367225  T       C       hom     221.999

При поиске дополнительной информации о генах оказалось, что некоторые мутации гена HMGA2 действительно ассоциированы с низкорослостью, что подтверждалось на мышах.[1][2]

НАЗАД