Ресеквенирование. Поиск полиморфизмов у человека

Мною была изучена хромосома 6

Часть I: подготовка чтений

Контроль качества чтений с помощью программы FastQC

Очистка чтений с помощью программы Trimmomatic-0.38 была выполнена командой:

java -jar /nfs/srv/databases/ngs/bezvita/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 chr6.fastq chr6_tri.fastq TRAILING:20 MINLEN:50

Контроль качества очищенных чтений с помощью программы FastQC

Количество чтений: 10289, после очистки: 10123

Изначально, длины чтений начинались с 33, но после очистки остались чтения длиной не менее 50

Часть II: картирование чтений

Команда Функция
hisat2-build-l chr6.fasta file Индексирование референсной последовательности
hisat2 -x file -U chr6_tri.fastq --no-spliced-alignment --no-softclip > align.sam Построение выравнивания прочтений и референса в формате .sam
samtools view align.sam -bo align.bam Перевод выравнивания чтений с референсом в бинарный формат .bam
samtools sort align.bam -o sorted.bam > sorted.bam Сортировка выравнивания чтений с референсом по координате в референсе начала чтения
samtools index sorted.bam Индексация отсортированного .bam файла
samtools idxstats sorted.bam > totalread.txt Отчёт о том, сколько чтений картировано на хромосому

Число чтений, картированных на хромосому: 10046; Число чтений, не картированных на хромосому: 77

*Фрагмент выдачи программы samtools depth sorted.bam -q > depth: chr6 138199542 155

*Координаты экзона: chr6:138,199,560-138,200,500; Среднее покрытие нуклеотидов в экзоне: 25,64080765

Часть III: Анализ SNP

samtools mpileup -f chr6.fasta -g sorted.bam > snp.bcf Создание файла с полиморфизмами в формате .bcf
bcftools call -cv snp.bcf -o snp.vcf Создание файла со списком отличий между референсом и чтениями в формате .vcf

Координата Тип полиморфизма Буква в референсе Буква в чтениях Глубина покрытия Качество чтений
I 106961119 Замена T C 6 36.0297
II 107016838 Вставка CTTT CTTTTT 36 217.468
III 154414446 Замена A T 85 221.999

Было получено 79 SNP и 5 инделей. Качество и покрытие достаточно хорошее

convert2annovar.pl -format vcf4 snp.vcf > annovar/variant.avinput Перевод формата .vcf в .avinput
annotate_variation.pl -filter -out snp_rs -build hg19 -dbtype snp138 variant.avinput /nfs/srv/databases/annovar/humandb.old/ Определение количества rs в snp
annotate_variation.pl -out refgene -build hg19 variant.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных refgene, основанное на генной разметке
annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 variant.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных dbsnp, основанное на фильтрации
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000gen variant.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных 1000 genomes, основанное на фильтрации
annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog variant.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных Gwas, основанное на разметке других регионов генома
annotate_variation.pl -filter -out clinvar -build hg19 -dbtype clinvar_20150629 variant.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных Clinvar, основанное на фильтрации

Выдача:

refseq говорит о том, куда легли snp относительно участков гена

refgene показывает, куда попал полиморфизм: в интрон или в экзон

dbsnp - совокупность только одного класса полиморфизмов

1000 genomes показывает частоту встречаемости данной буквы

Gwas показывает информацию о генетических заболеваниях

Clinvar показывает связь между изменчивостью человека и наблюдаемым состоянием здоровья

Аннотация Описание
refseq 6 гомозигот, 5 гетерозигот; максимальное покрытие - 36
refgene intronic - 64, exonic - 15, UTR3 - 5; В экзонах: nonsynonymous - 10, synonymous - 3, stopgain - 2
dbsnp 6 гомозигот, 5 гетерозигот; максимальное покрытие - 36, 73 snp в rs
1000 genomes Разброс частот: 0.00658946 - 0.96885
Gwas
2 гомозиготы, 2 гетерозиготы; максимальное покрытие - 88; 
болезни: Stroke, Systemic lupus erythematosus, Coronary heart disease
Clinvar
1 полиморфизм в выдаче: 
CLINSIG=untested;CLNDBN=not_specified;CLNREVSTAT=no_assertion_provided;CLNACC=RCV000122149.1;CLNDSDB=MedGen;CLNDSDBID=CN169374 
координата - 138196066;	в хромосоме - T;	в референсе - G;	гетерозигота;	покрытие - 46