Ресеквенирование. Поиск и предсказание полиморфизмов у человека.

Третий семестр Главный сайт



Задание 1

Для этого задания я взял 14-ю хромосому.
Для начала при помощи команды
fastqc chr14.fastq
был создан архив с данными о прочтении.

Задание 2

Затем при помощи программы trimmomatic были удалены риды с плохим качеством java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr14.fastq chr14trailing.fastq TRAILING:20 и слишком короткие java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr14trailing.fastq chr14trimmed.fastq MINLEN:50 Количество ридов уменьшилось с 8696 до 8562 (134 рида удалено) Визуализация:

Задание 3

Затем при помощи команды bwa index chr14.fasta была проиндексированна референсная последовательность, с которой затем командой bwa mem chr14.fasta chr14trimmed.fastq > chr14.sam были выровнены прочтения.

Задание 4

Затем выравнивания было переведено в бинарный формат .bam samtools view -b -o chr14.bam chr14.sam и остортированы командой samtools sort chr14.bam chr14sort Потом проиндексированы командой samtools index chr14sort.bam и были получены данные о них командой samtools idxstats chr14sort.bam Тут возник непонятный момент. Было 8562 ридов, а картировалось 8563 Как такое произошло непонятно.

Задание 5

Затем был проведен поиск полиморфизмов командами samtools mpileup -uf chr14.fasta chr14sort.bam > polym.bcf bcftools call -cv polym.bcf > compare.vcf Всего 87 полиморфизмов: 83 замены, 3 вставки, одна делеция. #CHROM POS ID REF ALT QUAL chr14 21024619 . A G 222 замена chr14 21025604 . tg tGg 4.42 вставка chr14 21026773 . C T 225.01 замена chr14 81431094 . CTCACTAT CT 22.5 делеция Качество полиморфизмов различное, большинство разделяется примерно поровну на группу 5-30 и группу 120+.

Задание 6. ANNOVAR

Сначала файл с полиморфизмами был конвертирован perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 compare.vcf -outfile chr14annovar.avinput А затем проаннотирован по нескольким базам: RefSeq perl /nfs/srv/databases/annovar/annotate_variation.pl -build hg19 chr14annovar.avinput -out chr14refgen /nfs/srv/databases/annovar/humandb/ dbsnp perl /nfs/srv/databases/annovar/annotate_variation.pl chr14annovar.avinput -build hg19 /nfs/srv/databases/annovar/humandb/ -dbtype snp138 -filter -out dbsnp/chr14dbsnp 1000genomes perl /nfs/srv/databases/annovar/annotate_variation.pl chr14annovar.avinput -buildver hg19 -filter /nfs/srv/databases/annovar/humandb/ -dbtype 1000g2014oct_all -out 1000g/chr14_1000g GWAS perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno chr14annovar.avinput -build hg19 -dbtype gwasCatalog /nfs/srv/databases/annovar/humandb/ -out GWAS/chr14gwas Clinvar perl /nfs/srv/databases/annovar/annotate_variation.pl chr14annovar.avinput /nfs/srv/databases/annovar/humandb/ -dbtype clinvar_20150629 -filter -buildver hg19 -out Clinval/chr14clin В базе данных RefSeq snp были разделены на следующие категории в следующих количествах: UTR3 1 splicing 1 exonic 3 intronic 82 Три экзонных замены попали в гены PPP2R5C, TSHR и RNASE9. Как и все интронные. Таблица со всеми заменами Замен из-за альтернативного сплайсинга оказалось очень много. По данным dbsnp 79 snp имеют rs. Частоты snp проиллюсрированы на диаграмме Clinval не нашел никаких ассоциированных с заболеваниями snp. Сводная таблица по snp


Сайт находится в стадии разработки


© 2014 Рюмин Константин