Третий семестр
Главный сайт
|
Задание 1
Для этого задания я взял 14-ю хромосому.
Для начала при помощи команды
fastqc chr14.fastq
был создан архив с данными о прочтении.
Задание 2
Затем при помощи программы trimmomatic были удалены риды с плохим качеством
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr14.fastq chr14trailing.fastq TRAILING:20
и слишком короткие
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr14trailing.fastq chr14trimmed.fastq MINLEN:50
Количество ридов уменьшилось с 8696 до 8562 (134 рида удалено)
Визуализация:
Задание 3
Затем при помощи команды
bwa index chr14.fasta
была проиндексированна референсная последовательность, с которой затем командой
bwa mem chr14.fasta chr14trimmed.fastq > chr14.sam
были выровнены прочтения.
Задание 4
Затем выравнивания было переведено в бинарный формат .bam
samtools view -b -o chr14.bam chr14.sam
и остортированы командой
samtools sort chr14.bam chr14sort
Потом проиндексированы командой
samtools index chr14sort.bam
и были получены данные о них командой
samtools idxstats chr14sort.bam
Тут возник непонятный момент. Было 8562 ридов, а картировалось 8563
Как такое произошло непонятно.
Задание 5
Затем был проведен поиск полиморфизмов командами
samtools mpileup -uf chr14.fasta chr14sort.bam > polym.bcf
bcftools call -cv polym.bcf > compare.vcf
Всего 87 полиморфизмов: 83 замены, 3 вставки, одна делеция.
#CHROM POS ID REF ALT QUAL
chr14 21024619 . A G 222 замена
chr14 21025604 . tg tGg 4.42 вставка
chr14 21026773 . C T 225.01 замена
chr14 81431094 . CTCACTAT CT 22.5 делеция
Качество полиморфизмов различное, большинство разделяется примерно поровну
на группу 5-30 и группу 120+.
Задание 6. ANNOVAR
Сначала файл с полиморфизмами был конвертирован
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 compare.vcf -outfile chr14annovar.avinput
А затем проаннотирован по нескольким базам:
RefSeq
perl /nfs/srv/databases/annovar/annotate_variation.pl -build hg19 chr14annovar.avinput -out chr14refgen /nfs/srv/databases/annovar/humandb/
dbsnp
perl /nfs/srv/databases/annovar/annotate_variation.pl chr14annovar.avinput -build hg19 /nfs/srv/databases/annovar/humandb/
-dbtype snp138 -filter -out dbsnp/chr14dbsnp
1000genomes
perl /nfs/srv/databases/annovar/annotate_variation.pl chr14annovar.avinput -buildver hg19 -filter /nfs/srv/databases/annovar/humandb/
-dbtype 1000g2014oct_all -out 1000g/chr14_1000g
GWAS
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno chr14annovar.avinput -build hg19
-dbtype gwasCatalog /nfs/srv/databases/annovar/humandb/ -out GWAS/chr14gwas
Clinvar
perl /nfs/srv/databases/annovar/annotate_variation.pl chr14annovar.avinput /nfs/srv/databases/annovar/humandb/
-dbtype clinvar_20150629 -filter -buildver hg19 -out Clinval/chr14clin
В базе данных RefSeq snp были разделены на следующие категории в следующих количествах:
UTR3 1
splicing 1
exonic 3
intronic 82
Три экзонных замены попали в гены PPP2R5C, TSHR и RNASE9. Как и все интронные.
Таблица со всеми заменами
Замен из-за альтернативного сплайсинга оказалось очень много.
По данным dbsnp 79 snp имеют rs.
Частоты snp проиллюсрированы на диаграмме
Clinval не нашел никаких ассоциированных с заболеваниями snp.
Сводная таблица по snp
|