Для выполнения практикума были даны файлы:
chr15.fastq & chr15.fasta
Файлы с резульататми лежат в директории:
/nfs/srv/databases/ngs/kirill
TASK1. Анализ качества чтений.
В этом задании использовалась программа FastQC, которая позволяет сделать анализ качества сырых последовательностей,
полученных непосредственно из высокопрозводительного секвенатора.
Команда для вызова программы FastQC: fastqc chr15.fastq
Отчет о программе получен в виде html файла:chr15_fastqc.html
Все фрагменты чтений,кроме последнего, имеют хороший параметр Phred Quality Score.
TASK2. Очистка чтений
В этом задании использовалась программа Trimmomatic, которая производит очистку чтений, а именно
удаление тех фрагментов,длина которых была меньше 50 нукл-в и чьи Q-score меньше 20. Исходя из этих требований
были выбраны trimming steps:
1)MINLEN: Drop the read if it is below a specified length;
2)TRAILING: Cut bases off the end of a read, if below a threshold quality
Команда для вызова программы Trimmomatic:
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr15.fastq trim.fastq TRAILING:20 MINLEN:50
Выходной файл:trim.fastq
Далее, файл с удаленными фрагментами был проанализирован командой FastQC (fastqc trim.fastq).
HTML-file:c
Число чтений до и после чистки: 5068 и 4946 соответсвенно.
Были удалены те участки, качество нуклеотидов которых ниже 20, и те, длина которых меньше 50 нукл.
TASK3&4. Картирование чтений и анализ выравнивания.
Команда
Функция
hisat2-build chr15.fasta chr15
Индексирование референсной последовательности,
на выходе получаем файлы chr15.*.ht2, *={1,..,9}
Информация о числе чтений, откартированных на геном
Выходной файл output file
(The output is TAB-delimited with each line consisting of reference sequence name, sequence length, # mapped reads and # unmapped reads. It is written to stdout).
В файле info представлены числа откартированных(4935) и неоткартированных на хромосому чтений(11), длина последовательности хромосомы(102531392) и ее имя(chr15).
Создание файла с полиморфизмами в формате .bcf,
на выходе получаем файл snp.bcf
bcftools call -cv snp.bcf -o snp.vcf
Создание файла со списком отличий между референсом и чтениями в формате .vcf
на выходе получаем файл snp.vcf
№
Координата
Тип полиморфизма
Буква референса
Буква чтений
Качество чтений
Глубина покрытия
1
89363866
замена
А
С
9.52546
1
2
77777632
замена
С
Т
225.009
49
3
77721225
замена
А
G
9.52546
1
TASK6. Аннотация SNP.
Следующее задание заключалось в аннотировании полученных
SNP при помощи программы ANNOVAR. Для этого был подготовлен файл,
который не содержал инделей snp.avinput из snp.vcf c использованием
скрипта annotate_variation.pl.
Использованная команда:
perl /nfs/srv/databases/annovar/convert2annovar.pl.old -format vcf4 snp.vcf > snp.avinput
Выходной файл:snp.avinput
Далее полученный файл использовался для аннотации SNP по базам данных refgene, dbsnp, 1000 genomes,
GWAS и Clinvar c помощью скрипта annotate_variation.pl.
Обнаружено 89 полиморфизмов, в числе которых 2 инделя; 87 - замены
Качество у найденных полиморфизмов равно 63.00807.(среднее значение) и 11.3429(медиана),что не является
высоким показателем.
Cреднее покрытие равно 11.12
Медиана покрытия равно 1
Покрытие плохое.
refgene
Тип аннотации: gene-based annotation.
Использованная команда: annotate_variation.pl -out rs.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb.old/
Было получено три выходных файла: rs.refgene.variant_function(contains annotation for all variants)
rs.refgene.exonic_variant_function(contains the amino acid changes as a result of the exonic variant)
rs.refgene.log(contains information about ANNOVAR programm and command working report)
SNP может находиться в одном из следующих регионов последовательности:
Value Default precedence Explanation Sequence Ontology
exonic 1 variant overlaps a coding exon_variant (SO:0001791)
splicing 1 variant is within 2-bp of a splicing junction splicing_variant (SO:0001568)
ncRNA 2 variant overlaps a transcript without coding
annotation in the gene definition non_coding_transcript_variant (SO:0001619)
UTR5 3 variant overlaps a 5' untranslated region 5_prime_UTR_variant (SO:0001623)
UTR3 3 variant overlaps a 3' untranslated region 3_prime_UTR_variant (SO:0001624)
intronic 4 variant overlaps an intron intron_variant (SO:0001627)
upstream 5 variant overlaps 1-kb region upstream of
transcription start site upstream_gene_variant (SO:0001631)
downstream 5 variant overlaps 1-kb region downtream of
transcription end site (use -neargene to change this) downstream_gene_variant (SO:0001632)
intergenic 6 variant is in intergenic region intergenic_variant (SO:0001628)
The first column tells whether the variant hit exons or hit intergenic regions, or hit introns,
or hit a non-coding RNA genes. If the variant is exonic/intronic/ncRNA, the second column gives the gene name
(if multiple genes are hit, comma will be added between gene names);if not, the second column will give the
two neighboring genes and the distance to these neighboring genes.
Было получено 89 SNP:
exonic=12
intronic=62
UTR=1
upstream=3
ncRNA=10
intergenic=1
Σ=89
Качество у найденных полиморфизмов зависит от процент.числа snp,попавших в категорию exonic.В данном случае таких snp 13%.
Мои snp попали в следующие гены:LIPC,LOC101928694,HMG20a,ACAN,AQP9.
описание трех полиморфизмов:
№ Координаты (*) Ген Н. замена Тип замены Качество чтений Глубина покрытия А.к. замена
1 58830707 LIPC C>T het 225.009 63 H88H
2 58834741 LIPC G>T het 201.009 26 V155V
3 89382129 ACAN C>A het 95.0077 11 D102E
Dbsnp
Тип аннотации: filter-based annotation
Команда:annotate_variation.pl -filter -out db.snp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb.old/
Было получено три выходных файла: db.snp.hg19_snp138_dropped(contains variants that are annotated in dbSNP, and print out their rs identifiers)
db.snp.hg19_snp138_filtered(contains SNPs not in dbSNP)
db.snp.log(contains information about ANNOVAR programm and command working report)
rs имеют 75 snp.
1000 genomes
Тип аннотации: filter-based annotation
Команда:annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000gen snp.avinput /nfs/srv/databases/annovar/humandb.old/
Было получено три выходных файла: 1000gen.hg19_ALL.sites.2014_10_dropped(contains variants that are annotated in dbSNP, and print out their rs identifiers )
1000gen.hg19_ALL.sites.2014_10_filtered(contains SNPs not in dbSNP)
1000gen.log(contains information about ANNOVAR programm and command working report)
Медиана и среднее значение частоты найденных snp примерно равны (0.478035 и 0.492093 соответственно)
Gwas
To find variants that were previously reported to be associated with diseases or traits in genome-wide association studies, the gwasCatalog keyword can be used:
Тип аннотации: region-based annotation
Команда:annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb.old/
Было получено 2 выходных файла: gwas.hg19_gwasCataloggwas.log(contains information about ANNOVAR programm and command working report)
В первом файле представлены 5 snp, которые связанны с определенными заболеваниями или характерной
особенностью(в данном случае это cholesterol,Type 2 diabetes,Hematological and biochemical traits,height)
Clinvar
The ClinVar database archives and aggregates information about relationships among variation and human health.
Тип аннотации: filter-based annotation
Команда:annotate_variation.pl -filter -out clinvar -build hg19 -dbtype clinvar_20150629 snp.avinput /nfs/srv/databases/annovar/humandb.old/
Было получено три выходных файла: clinvar.hg19_clinvar_20150629_dropped(contains variants that are annotated in dbSNP, and print out their rs identifiers)
clinvar.hg19_clinvar_20150629_filtered(contains SNPs not in dbSNP)
clinvar.log(contains information about ANNOVAR programm and command working report)
Первый файл оказался пустым. Следовательно в данной аннотации не было результатов, связанных с вариациями генома и их отношением к здоровью человека.
Таблица с характеристиками snp: