Учебный сайт Якушева Александра


Практикум 11. Ресеквенирование. Поиск полиморфизмов у человека.

В 11 практикуме необходимо найти и описать полиморфизмы у пациента в последовательности ДНК одной заданной хромосомы. Мне досталась 7 хромосома человека.

Таблица 1. Использованные команды.
Команда Описание
hisat2-build chr7.fasta chr7 Индексирование референса
fastqc chr7.fastq Анализ качества чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr7.fastq chr7_trimmed.fastq TRAILING:20 MINLEN:50 Тримминг чтений(нуклеотиды с качеством меньше 20 и риды с длиной меньше 50 выбрасываем)
fastqc chr7_trimmed.fastq Анализ качества после тримминга
hisat2 -x chr7 -U chr7_trimmed.fastq -S chr7_align.sam --no-softclip --no-spliced-alignment Выравнивание прочтений и референса
samtools view -b chr7_align.sam -o chr7_align.bam Перевод выравнивания в бинарный формат
samtools sort chr7_align.bam chr7_align_sorted Сортировка выравнивания по координате в референсе
samtools index chr7_align_sorted.bam Индексирование отсортированного файла
samtools flagstat chr7_align.sam Получение основной информации о картировании, в т.ч. числа откартированных чтений
samtools mpileup -uf chr7.fasta chr7_align_sorted.bam -o chr7_snp.bcf Создание файла с полиморфизмами
bcftools call -cv chr7_snp.bcf -o chr7_snp.vcf Перевод полученного файла в текстовый формат
vcftools --vcf chr7_snp.vcf --remove-indels --recode --out chr7_snp_noind Удаление инделей из vcf-файла
convert2annovar.pl -format vcf4 chr7_snp_noind.recode.vcf -outfile chr7_snp.avinput Получение входного файла для annovar
annotate_variation.pl -out chr7_refgene -build hg19 chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных refGene
annotate_variation.pl -filter -out chr7_dbsnp -build hg19 -dbtype snp138 chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных dbsnp
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out chr7_1000genomes chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных 1000 genomes
annotate_variation.pl -regionanno -build hg19 -out chr7_gwas -dbtype gwasCatalog chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных Gwas
annotate_variation.pl chr7_snp.avinput /nfs/srv/databases/annovar/humandb.old/ -filter -dbtype clinvar_20150629 -buildver hg19 -out chr7_clinvar Аннотация по базе данных Clinvar

Оценка качества чтений и очистка мусора

Исходно было получено 3752 чтения. Качество чтений до очистки отображено на Рис. 1. С помощью Trimmomatic с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20, после чего оставлены только чтения длиной не меньше 50 нуклеотидов. После очистки осталось 3650 ридов. Качество чтений после очистки отображено на Рис. 2. Видно, что они стали лежать в более узком диапозоне. Также качество чтений можно проверять по распределению GC-контента ридов. В теории он должен быть распределен нормально. Однако в нашем случае от нормального распределения есть отклонения (см. Рис. 3).

Per base quality graph
Рисунок 1. Качество чтений до тримминга
Per base quality graph
Рисунок 2. Качество чтений после тримминга
Per sequence GC content graph
Рисунок 3. Содержание GC в образцах. Гипотетически должно соответствовать нормальному распределению(синяя линия)

Картирование ридов и аннотация полиморфизмов

В результате выравнивания на последовательность хромосомы легли один раз 94.79% (3460) ридов. Всего легло 99.84% (3644) ридов. Картирование хорошее, так как всего 6 ридов не легло на референсную последовательность не разу.

Анализ SNP

Были найдены все полиморфизмы из данного генома. Всего был найден 31 SNP и 3 инделя. Примеры трех SNP приведены в Таблице 2.

Таблица 2. Описание некоторых полиморфизмов.
Полиморфизм 1 Полиморфизм 2 Полиморфизм 3
Координата 134250322 134254029 134264286
Тип полиморфизма Замена Замена Замена
Референс A G C
Риды C A T
Глубина покрытия 68 47 42
Качество чтений 225.009 212.009 187.009

Качество прочтений. Из данного графика следует, что распределение неравномерное. В целом качество приемлмое.

snp
Рисунок 4. Распределение SNP по качеству прочтений.

Аннотация SNP

Таблица 3. Распределение SNP по категориям в RefGene.
Категория UTR3 exonic intronic
Количество 2 4 25

Гены, в которых нашлись SNP: ACHE, WNT16, AKR1B10, AKR1B15.

Из файла refgen.exonic_variant_function можно извлечь следующие данные о нуклеотидных заменах.

synonymous 	SNV		chr7	100490077	100490077	G	A.
nonsynonymous 	SNV		chr7	120969769	120969769	G	A.
nonsynonymous 	SNV		chr7	120979089	120979089	C	T.
synonymous 	SNV		chr7	134264286	134264286	C	T.

RS имеют 28 из 31 SNP. Информация взята из выхода программы аннотации по snp168.

Средняя частота SNP по базе 1000 genomes составила 33%

По Clinvar не аннотировано ни одного SNP

По GWAS аннотированы 4 SNP. Они связаны с Диабетом 2 типа, минеральной прочностью костей, кортикальной слабостью и долглетием.

Конец