Мною была изучена хромосома 6
Контроль качества чтений с помощью программы FastQC
Очистка чтений с помощью программы Trimmomatic-0.38 была выполнена командой:
java -jar /nfs/srv/databases/ngs/bezvita/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 chr6.fastq chr6_tri.fastq TRAILING:20 MINLEN:50
Контроль качества очищенных чтений с помощью программы FastQC
Количество чтений: 10289, после очистки: 10123
Изначально, длины чтений начинались с 33, но после очистки остались чтения длиной не менее 50
Команда | Функция |
---|---|
hisat2-build-l chr6.fasta file | Индексирование референсной последовательности |
hisat2 -x file -U chr6_tri.fastq --no-spliced-alignment --no-softclip > align.sam | Построение выравнивания прочтений и референса в формате .sam |
samtools view align.sam -bo align.bam | Перевод выравнивания чтений с референсом в бинарный формат .bam |
samtools sort align.bam -o sorted.bam > sorted.bam | Сортировка выравнивания чтений с референсом по координате в референсе начала чтения |
samtools index sorted.bam | Индексация отсортированного .bam файла |
samtools idxstats sorted.bam > totalread.txt | Отчёт о том, сколько чтений картировано на хромосому |
Число чтений, картированных на хромосому: 10046; Число чтений, не картированных на хромосому: 77
*Фрагмент выдачи программы samtools depth sorted.bam -q > depth: chr6 138199542 155
*Координаты экзона: chr6:138,199,560-138,200,500; Среднее покрытие нуклеотидов в экзоне: 25,64080765
samtools mpileup -f chr6.fasta -g sorted.bam > snp.bcf | Создание файла с полиморфизмами в формате .bcf |
bcftools call -cv snp.bcf -o snp.vcf | Создание файла со списком отличий между референсом и чтениями в формате .vcf |
Координата | Тип полиморфизма | Буква в референсе | Буква в чтениях | Глубина покрытия | Качество чтений | |
---|---|---|---|---|---|---|
I | 106961119 | Замена | T | C | 6 | 36.0297 |
II | 107016838 | Вставка | CTTT | CTTTTT | 36 | 217.468 |
III | 154414446 | Замена | A | T | 85 | 221.999 |
Было получено 79 SNP и 5 инделей. Качество и покрытие достаточно хорошее
convert2annovar.pl -format vcf4 snp.vcf > annovar/variant.avinput | Перевод формата .vcf в .avinput |
annotate_variation.pl -filter -out snp_rs -build hg19 -dbtype snp138 variant.avinput /nfs/srv/databases/annovar/humandb.old/ | Определение количества rs в snp |
annotate_variation.pl -out refgene -build hg19 variant.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по базе данных refgene, основанное на генной разметке |
annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 variant.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по базе данных dbsnp, основанное на фильтрации |
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000gen variant.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по базе данных 1000 genomes, основанное на фильтрации |
annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog variant.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по базе данных Gwas, основанное на разметке других регионов генома |
annotate_variation.pl -filter -out clinvar -build hg19 -dbtype clinvar_20150629 variant.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по базе данных Clinvar, основанное на фильтрации |
Выдача:
refseq говорит о том, куда легли snp относительно участков гена
refgene показывает, куда попал полиморфизм: в интрон или в экзон
dbsnp - совокупность только одного класса полиморфизмов
1000 genomes показывает частоту встречаемости данной буквы
Gwas показывает информацию о генетических заболеваниях
Clinvar показывает связь между изменчивостью человека и наблюдаемым состоянием здоровья
Аннотация | Описание |
---|---|
refseq | 6 гомозигот, 5 гетерозигот; максимальное покрытие - 36 |
refgene | intronic - 64, exonic - 15, UTR3 - 5; В экзонах: nonsynonymous - 10, synonymous - 3, stopgain - 2 |
dbsnp | 6 гомозигот, 5 гетерозигот; максимальное покрытие - 36, 73 snp в rs |
1000 genomes | Разброс частот: 0.00658946 - 0.96885 |
Gwas | 2 гомозиготы, 2 гетерозиготы; максимальное покрытие - 88; болезни: Stroke, Systemic lupus erythematosus, Coronary heart disease |
Clinvar | 1 полиморфизм в выдаче: CLINSIG=untested;CLNDBN=not_specified;CLNREVSTAT=no_assertion_provided;CLNACC=RCV000122149.1;CLNDSDB=MedGen;CLNDSDBID=CN169374 координата - 138196066; в хромосоме - T; в референсе - G; гетерозигота; покрытие - 46 |