Практикум 11. Ресеквенирование. Поиск полиморфизмов у человека.
В 11 практикуме необходимо найти и описать полиморфизмы у пациента в последовательности ДНК одной заданной хромосомы. Мне досталась 7 хромосома человека.
Команда | Описание |
---|---|
hisat2-build chr7.fasta chr7 | Индексирование референса |
fastqc chr7.fastq | Анализ качества чтений |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr7.fastq chr7_trimmed.fastq TRAILING:20 MINLEN:50 | Тримминг чтений(нуклеотиды с качеством меньше 20 и риды с длиной меньше 50 выбрасываем) |
fastqc chr7_trimmed.fastq | Анализ качества после тримминга |
hisat2 -x chr7 -U chr7_trimmed.fastq -S chr7_align.sam --no-softclip --no-spliced-alignment | Выравнивание прочтений и референса |
samtools view -b chr7_align.sam -o chr7_align.bam | Перевод выравнивания в бинарный формат |
samtools sort chr7_align.bam chr7_align_sorted | Сортировка выравнивания по координате в референсе |
samtools index chr7_align_sorted.bam | Индексирование отсортированного файла |
samtools flagstat chr7_align.sam | Получение основной информации о картировании, в т.ч. числа откартированных чтений |
samtools mpileup -uf chr7.fasta chr7_align_sorted.bam -o chr7_snp.bcf | Создание файла с полиморфизмами |
bcftools call -cv chr7_snp.bcf -o chr7_snp.vcf | Перевод полученного файла в текстовый формат |
vcftools --vcf chr7_snp.vcf --remove-indels --recode --out chr7_snp_noind | Удаление инделей из vcf-файла |
convert2annovar.pl -format vcf4 chr7_snp_noind.recode.vcf -outfile chr7_snp.avinput | Получение входного файла для annovar |
annotate_variation.pl -out chr7_refgene -build hg19 chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по базе данных refGene |
annotate_variation.pl -filter -out chr7_dbsnp -build hg19 -dbtype snp138 chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по базе данных dbsnp |
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out chr7_1000genomes chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по базе данных 1000 genomes |
annotate_variation.pl -regionanno -build hg19 -out chr7_gwas -dbtype gwasCatalog chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по базе данных Gwas |
annotate_variation.pl chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ -filter -dbtype clinvar_20150629 -buildver hg19 -out chr7_clinvar | Аннотация по базе данных Clinvar |
Оценка качества чтений и очистка мусора
Исходно было получено 3752 чтения. Качество чтений до очистки отображено на Рис. 1. С помощью Trimmomatic с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20, после чего оставлены только чтения длиной не меньше 50 нуклеотидов. После очистки осталось 3650 ридов. Качество чтений после очистки отображено на Рис. 2. Видно, что они стали лежать в более узком диапозоне. Также качество чтений можно проверять по распределению GC-контента ридов. В теории он должен быть распределен нормально. Однако в нашем случае от нормального распределения есть отклонения (см. Рис. 3).
Картирование ридов и аннотация полиморфизмов
В результате выравнивания на последовательность хромосомы легли один раз 94.79% (3460) ридов. Всего легло 99.84% (3644) ридов. Картирование хорошее, так как всего 6 ридов не легло на референсную последовательность не разу.
Анализ SNP
Были найдены все полиморфизмы из данного генома. Всего был найден 31 SNP и 3 инделя. Примеры трех SNP приведены в Таблице 2.
Полиморфизм 1 | Полиморфизм 2 | Полиморфизм 3 | |
---|---|---|---|
Координата | 134250322 | 134254029 | 134264286 |
Тип полиморфизма | Замена | Замена | Замена |
Референс | A | G | C |
Риды | C | A | T |
Глубина покрытия | 68 | 47 | 42 |
Качество чтений | 225.009 | 212.009 | 187.009 |
Качество прочтений. Из данного графика следует, что распределение неравномерное. В целом качество приемлмое.
Аннотация SNP
Категория | UTR3 | exonic | intronic |
---|---|---|---|
Количество | 2 | 4 | 25 |
Гены, в которых нашлись SNP: ACHE, WNT16, AKR1B10, AKR1B15.
Из файла refgen.exonic_variant_function можно извлечь следующие данные о нуклеотидных заменах.
synonymous SNV chr7 100490077 100490077 G A. nonsynonymous SNV chr7 120969769 120969769 G A. nonsynonymous SNV chr7 120979089 120979089 C T. synonymous SNV chr7 134264286 134264286 C T.
RS имеют 28 из 31 SNP. Информация взята из выхода программы аннотации по snp168.
Средняя частота SNP по базе 1000 genomes составила 33%
По Clinvar не аннотировано ни одного SNP
По GWAS аннотированы 4 SNP. Они связаны с Диабетом 2 типа, минеральной прочностью костей, кортикальной слабостью и долглетием.
Конец