Dzha_reseq
Даны следующие файлы:
Был проведен контроль качества чтений с помощью программы FastQC.
Данная программа установлена на kodomo. Она была запущена с помощью команды:
fastqc chr6.fastqВ итоге на выходе программа выдала архив (.zip) с отчетом [html] . (см. Рис.1)
Всего в файле 10289 последовательностей, их длина колеблется в диапазоне 33-100, процент содержания GC пар — 40.
На горизонтальной оси отмечены позиции в риде (1-100). Вертикальная ось соответствует некоторому значению 'качества' прочтения. Жёлтый блок охватывает вторую и третью квартиль распределения качества для для каждой позиции. Красная линия - медиана, синяя - среднее значение. Черные 'уcы' обозначают границы 10 и 90 перцентилей.
Как видно (рис.1), некоторые нуклеотиды попадают в красную зону по качеству. Такие недостоверные чтения нужно удалить. Слишком короткие последовательности также не подходят, так как они могут неоднозначно картироваться.
Была произведена очистка чтений с помощью программы Trimmomatic:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr6.fastq chr6_clean.fastq TRAILING:20 MINLEN:50
Таким образом, в выходном файле chr6_clean.fastq с конца каждого чтения отрезаны нуклеотиды с качеством ниже 20, а также оставлены только чтения длиной не меньше 50 нуклеотидов.
Результаты работы: TrimmomaticSE: Started with arguments: -phred33 chr6.fastq chr6_clean.fastq TRA Automatically using 8 threads Input Reads: 10289 Surviving: 10123 (98,39%) Dropped: 166 (1,61%) TrimmomaticSE: Completed successfully
Оценка нуклеотидов после очистки — отчет html. (Рис.2)
После обработки в ридах остались только те последовательности, в которых качество нуклеотидов >25.
Референсная последовательность была проиндексирована:
bwa index chr6.fasta
Очищенные риды были картированы на хромосому:
bwa mem chr6.fasta chr6_clean.fastq > align.sam
После этого с помощью пакета samtools файл с выравниванием был переведен в бинарный формат .bam:
samtools view -b align.sam > align.bam
Выравнивание чтений с референсом было отсортировано по координате в референсе начала чтения:
samtools sort align.bam align-sorted
Далее полученный файл был проиндексирован:
samtools index align-sorted.bam
Было подсчитано, сколько чтений откартировалось на геном:
samtools idxstats align-sorted.bam > idxstats.out
В результате, получен файл idxstats.out; на геном успешно откартировалось 10123 ридов, не откартировалось — 1.
Cоздан файл с полиорфизмами в формате .bcf.
samtools mpileup -uf chr17.fasta align-sorted.bam -o snp.bcf
Cоздан файл со списком отличий между референсом и чтениями в формате .vcf.
bcftools call -cv snp.bcf -o snp.vcf
Был получен файл snp.vcf. 11 инделей, 83 полиморфизм.
Координата | Тип полиморфизма | Референс | Рид | Покрытие | Качество ридов |
106966857 | Делеция | cacacacacatacacacaca | cacacacaca | 58 | 217.468 |
107016838 | Вставка | CTTT | CTTTTT | 35 | 212.468 |
107009090 | Замена | G | A | 9 | 94.0077 |
Аннотация SNP.
Сначала из файла snp.vcf были удалены все индели -> snp_not_indels.vcf
Затем из файла snp_not_indels.vcf получен файл, с которым может работать программа annovar. Для этого использовалась команда::
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp_not_indels.vcf -outfile snp.annovar
Аннотация по базе refgene:
perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr6.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/
В результате было получено три файла: chr6.refgene.variant_function (содержит описание всех SNP), chr6.refgene.exonic_variant_function (содержит описание SNP, попавших в экзоны) и chr6.refgene.log (содержит информацию о процессе работы).
База данных refgene делит снипы на следующие категории:
Распределение SNP по группам в файле:
Полиморфизмы попали в следующие гены:
Координата | Замена | Тип замены | Ген | Качество ридов |
106974933 | T > G | het | AIM1 | 81.013 |
106989212 | G > A | hom | AIM1 | 221.999 |
106967833 | G > A | het | AIM1 | 191.009 |
Аннотация по базе dbsnp:
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp_not_indels.vcf -outfile snp.annovar
Получено три файла:
78 SNP имеют аннотацию в упомянутой базе данных, а 6 — не имеют.
Аннотация по базе GWAS:perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr6.1000 -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/
Аннотация по данной БД работает по такому же filter-based-принципу, как и в случае с dbsnp. Выходные файлы аналогичны (_dropped, _filered, .log). В этой базе аннотировано 46 SNP, а не аннотировано — 6
Аннотация по базе GWAS:
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -out chr6.gwas -build hg19 -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb/
Было получено 2 файла: chr6.gwas.log и chr6.gwas.hg19_gwasCatalog (содержит SNP, для которых известно какое-то клиническое значение).
Название болезни | Ген |
Системная красная волчанка | 138195723 |
Ревматоидный артирит | 138195723 |
Коронарная болезнь | OPRM1 |
Аннотация по базе Clinvar
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr6.clincar -buildver hg19 -dbtype clinvar_20150629 snp.avinput /nfs/srv/databases/annovar/humandb/
В итоге было получено 3 файлa: chr6.clincar.hg19_clinvar_20150629_dropped (содержит найденные аннотированные SNP) и chr6.clincar.hg19_clinvar_20150629_filtered (содержит все остальные).