Входной файл | Получаемый файл | Команда | Что делает |
chr8.fastqc | chr8_fastqc.zip | fastqc chr8.fastq |
Контроль качества прочтений |
chr8.fastq | out1.fastq | java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr8.fastq out1.fastq TRAILING:20 |
Удаляем с конца нуклеотиды качеством < 20 |
out1.fastq | out2.fastq | java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 out1.fastq out2.fastq MINLEN:50 |
Удаляем с конца последовательности длины < 50 | out2.fastq | out2_fastq.zip | fastqc out2.fastq |
Контроль качества прочтений |
Число чтений до чистки: 8367
Число чтений после чистки: 8227
С помощью программы trimmomatic были удалены нуклеотиды с качеством чтения
(меньше 20, где Q=10*lg(p), p - вероятность ошибки)
Отобраны прочтения с длиной более 50 нуклеотидов
Пропали риды с длинными усами
В результате проведенной нами небольшой чистки количество прочтений уменьшилось на 140
Стоит обратить внимание на такой параметр как Per sequence GC content;
содержание GC пар изменилось с 39 до 38 %, тем не менее, до "чистки" рядом с этим параметром стояло
предупреждение (имеются отклонения от нормального распределения содержания GC-пар в более чем 15% прочтений),
после trimmomatic процент отклонения по прочтениям уменьшился, предупреждение пропало
Вероятно, предупреждение было связано с наличием коротких прочтений, которые вносили погрешности в подсчет
распределения процентного содержания GC-пар
Мы также можем заметить предупреждение напротив параметра Per base sequence content
Они возникает, если различие между А и Т, либо G и C больше 10% в какой-либо позиции
Это может быть связано с ошибкой в процессе секвенирования; скорее всего, это не опосредовано
присутствием какой-либо "загрязняющей" последовательности, иначе такие неточности систематически
появлялись бы в нескольких позициях, а не только в одной, как в нашем случае
Sequence Length Distribution
Этот модуль генерирует график, показывающий распределение размеров ридов в анализируемом файле
Предупреждение возникает, если все прочтения имеют различную длину
В нашем случае длина ридов в большинстве случаев превышает 100 bp;
Не думаю, что в случае нашего файла такое предупреждение является серьезной проблемой, так как
данный параметр достаточно сильно зависит от качества секвенатора; так, если прибор не является
высокопроизводительным, то небольшие различия в длине ридов для него являются нормой
Входной файл | Получаемый файл | Команда | Что делает |
chr8.fasta | mychr.* | hisat2-build chr8.fasta mychr |
Индексируем референсную последовательность |
out2.fastq | samchr8.sam | hisat2 -x mychr -U out2.fastq -S samchr8.sam --no-spliced-alignment --no-softclip |
Строим выравнивание ридов и референса |
samchr8.sam | bamchr8.bam | samtools view samchr8.sam -b >> bamchr8.bam |
Переводим выравнивание ридов с референсом в бинарный формат |
bamchr8.bam | sortedbam.bam | samtools sort bamchr8.bam sortedbam |
Сортируем выравнивание ридов с референсом по координате в референсе начала чтения |
sortedbam.bam | sortedbam.bam.bai | samtools index sortedbam.bam |
Индексируем отсортированный .bam файл |
Рассмотрим выдачу программы hisat2 - на геном откартировано 3227 ридов,
100% которых были непарными
8187 ридов (99.64%) выровнены ровно 1 раз
30 ридов (0.36%) выровнены 0 раз
0 ридов (0%) выровнены более 1 раза
С помощью команды
samtools depth sortedbam.bam >> cover.csvвычислим покрытие для каждого
samtools depth -r chr8:76476210-76479061 sortedbam.bam >> exon_cover.csv
sortedbam.bam, chr8.fasta | polymorphs.bcf | samtools mpileup -uf chr8.fasta -g -o polymorphs.bcf sortedbam.bam |
Создаем файл с полиморфизмами в .bcf |
polymorphs.bcf | refandreaddiff.vcf | bcftools call -cv -o refandreaddiff.vcf polymorphs.bcf |
Создаем файл со списком отличий между референсом и ридами в .vcf |
Координата | Тип полиморфизма | В референсе | В ридах | Глубина покрытия | Качество чтения |
chr8:27454785 | Индель | TAATGAA | TAA | 5 | 58.4663 |
chr8:116599199 | Замена | T | G | 45 | 221.999 |
chr8:76468309 (->76468321) | Индель | GTTTTTTTTTTTT | GTTTTTTTTTT,GTTTTTTTTT | 74 | 120.457 |
convert2annovar.pl -format vcf4 refandreaddiff.vcf > chr8.avinput |
Переводим файл .vcf формат, удобный для работы annovar |
annotate_variation.pl -filter -out SR_SNP -build hg19 -dbtype snp138 chr8.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по Dbsnp |
annotate_variation.pl -out refgen -build hg19 chr8.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по Refgene |
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000Genomes chr8.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по 1000 Genomes |
annotate_variation.pl -regionanno -build hg19 -out GWAS -dbtype gwasCatalog chr8.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по Gwas |
annotate_variation.pl chr8.avinput -filter -dbtype clinvar_20150629 -buildver hg19 -out CLINVAR /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по Clinvar |
CASC9 17 CLU 10 HNF4G 22 (+17) TRPS1 46
Болезнь Альцгеймера (2 snp) 27456253 27456253 T C 3 27466315 27466315 T C 29 ЛВП (Липопротеины высокой плотности) 76478768 76478768 C T 134 Уровень мочевой кислоты 116599199 116599199 T G 45ClinVar объединяет информацию о геномных вариациях (полиморфизмах), их отношении к здоровью человека