Практикум 11. Ресеквенирование. Поиск полиморфизмов у человека

Задание №1. Подготовка референса и чтений

Командная строка Функция
 cp Human/chr20.fasta crasyempress3090/chr20.fasta 
Копиравание chr20.fasta
 hisat2-build chr20.fasta task2.fasta 
Индексация референса
 cp ../Human/reads/chr20.fastq chr20.fastq 
Копирование ридов
 fastqc chr20.fastq 
Обработка FastQC
 java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr20.fastq chr20_trim.fastq TRAILING:20 MINLEN:50 
Обрезание концов
 hisat2 -x task2.fasta -U chr20_trim.fastq -S chr20_aligntoref.sam --no-softclip --no-spliced-alignment 
Картирование чтений из fastq (по индексированной последовательности)
 samtools view -b chr20_aligntoref.sam -o chr20_align.bam 
Конвертнация в .bam
 samtools sort chr20_align.bam chr20_align_sorted 
Сортировка по координате в начале чтения
 samtools index chr20_align_sorted.bam 
Индексация отсортированного .bam
 samtools mpileup -u -f chr20.fasta -o chr20_poly.bcf chr16_align_sorted.bam 
Создание файла с полиморфизмами
 bcftools call -cv -o chr20_poly.vcf chr20_poly.bcf 
Создание файла со списком отличий между референсом и чтениями в формате .vcf
 vcftools --vcf chr20_poly.vcf --remove-indels --recode --out chr20_poly_niind 
Удаление инделей
 convert2annovar.pl -format vcf4 chr20_poly_niind.recode.vcf -outfile chr20_poly.avinput 
Конвертнация в .vcf4 (для annotate_variation.pl)
 annotate_variation.pl -out chr20_annotate -build hg19 -dbtype refGene chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ 
Аннотация по refgene
 annotate_variation.pl -filter -out chr20_annotate_dbsnp -build hg19 -dbtype snp138 chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ 
Аннотацтия по dbsnp
 annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out chr20_1000g chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ 
Аннотацтия по 1000 genomes
 annotate_variation.pl -regionanno -build hg19 -out chr20_gwas -dbtype gwasCatalog chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ 
Аннотацтия по GWAS
 annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 -out chr20_clinvar chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ 
Аннотацтия по Clinvar

Задание №2. Анализ результатов FastQC

До обрезки:
мое фото
После обрезки:
мое фото

Всего было 4661 чтений, их качество (из выдачи fastqc) показано на 1 картинке. После очистки чтений trimmomatic - убраны нуклеотиды с качеством менее 20, минимальная длина для чтений после этой обработки 50 - осталось 4472 (95,95%), были отброшены 189 (4,05%). Судя по результатам, триммирование оправдано - отброшены немного чтений, но среднее качество по последовательности, особенно в конце, значительно выросло.

Результаты:
 Input Reads: 4661 Surviving: 4472 (95,95%) Dropped: 189 (4,05%) 

Задание №3. Анализ картирования чтений

99.60% чтений были картированы на хромосому, качество можно считать довольно высоким

 4472 reads; of these:
	4472 (100.00%) were unpaired; of these:
	17 (0.38%) aligned 0 times
	4454 (99.60%) aligned exactly 1 time
	1 (0.02%) aligned >1 times
	99.62% overall alignment rate 

Задание №4. Описание полиморфизмов*

Все нуклеотидные (с.) и аминокислотные (p.) замены перечислены в файле chr20_annotate_exonic_variant_function.

Всего 42 полиморфизма, из них 42 SNP. Большинство, имеют очень низкое покрытие (1-2 чтения) и качество - возможно, ошибки секвенирования. В таблице показал 2 полиморфизма с плохим покрытием и один с хорошим.

Позиция Тип Референс Чтение Глубина покрытия Качество чтений
33903158 Замена G A 2 3.01394
34010241 Замена A G 1 3.01618
34022387 Замена A C 18 110.008

База данных refseq в annovar распределяет SNP по их расположению в последовательности.

Тип SNP Количество SNP
intronic 28
exonic 8
intergenic 3
UTR5 1
upstream 2

База данных refseq даёт о полиморфизмах следующую информацию: в координатах какого гена (или координаты области полиморфизма относительно соседних генов) находится полиморфизм, в интронной, экзонной, нетранслируемой или междугенной области. Из 42 полиморфизмов 15 находятся в интронных областях гена UQCC1 (Ubiquinol-Cytochrome C Reductase Complex Assembly Factor 1), 3 между генами UQCC1 и GDF5, 1 в экзоне GDF5 (Growth differentiation factor 5), по одному в UTR5 и upstream областях того же гена, 3 в экзонах гена SPATA2 (Spermatogenesis Associated 2), 1 в upstream и 2 в интронах того же гена, 4 в экзонах ZBP1 (Z-DNA-binding protein) и 11 в его интронах.

Из экзонных замен 4 являются синонимичными - 3 в гене SPATA2 (exon3:c.C1389T:p.C463C; exon3:c.C1134T:p.S378S; exon2:c.T201C:p.Y67Y), 1 в гене ZBP1 (exon7:c.C1086T:p.D362D).

Несинонимичные замены: 1 в GDF5 (exon2:c.T826G:p.S276A), 3 в ZBP1 (exon6:c.A770G:p.Q257R; exon4:c.G460C:p.D154H; exon3:c.G262A:p.E88K)

Из 42 полиморфизмов 32 имеют reference SNP ID number (rs).

12 полиморфизмов встречается довольно часто (диапазон 0.35-0.6), 3 реже (0.13-0.19) 13 очень редко (менее 0.1), есть несколько очень распространённых (0.695, 0.813 и даже 0.996).

Задание №5. Клиническая аннотация snp (выдача GWAS)

Cогласно базе gwas, два SNP ассоциированы с ростом и псориазом, третий - с атрофией гиппокампа.

        gwasCatalog	Name=Height	                chr20	34025756	34025756	A	G	hom	221.999	.
	gwasCatalog	Name=Psoriasis	                chr20	48522330	48522330	G	A	het	196.009	.
	gwasCatalog	Name=Hippocampal atrophy	chr20	56190634	56190634	C	T	het	225.009	. 

В clinvar есть запись только об одном из найденных полиморфизмов - в гене GDF5, он ведёт к повышенному риску возникновения остеоартроза бедренного сустава (CLNACC=RCV000008898.2).