Работа велась с 19 хромосомой человека и её ридами. Все команды в конце страницы.
До обработки
После обработки
Данный график показывает определенные параметры прочтений. Желтые прямоугольники - интетквартильный интервал, т.е. значения от 25% до 75% всех значений, от него сверху и снизу черные линии, это от 10% до 90% значений, остальные на данной графике не отображаются. Красная линия на каждой интерквартиле - медиана, синия линия , проходящая через весь график - среднее значений. Если сравнить эти 2 графика, видно, что после чистки интервал от 10% до 90% значительно сузился, только нижние значения, т.е. с низким качеством, что как раз является целью очистки (на конце более плохие значения, чем в начале на обоих графиках). Также среднее значение после очистки находится внутри интерквартильных вариантов, и медиана возрасла.
Число ридов до очистки - 5524, после - 5227 (отброшено 297)
Cначала параметр TRAILING:20 привел к отрезанию нуклеотидов с плохим качеством с конца, затем параметр MINLEN:50 - к удалению ридов несоответствующей длины (меньше 50 п.о.)
Откартировались на хромосому все риды.
atp_abuser@kodomo:/nfs/srv/databases/ngs/atp_abuser$ samtools idxstats chr19_sorted.bam chr19 59128983 5227 0 * 0 0 0
Найдено 92 полиморфизма, 6 из них - индели, остальные 86 - однонуклеотидные замены.
Координата | Тип полиморфизма | Референс | Чтения | Глубина покрытия | Качество чтений |
---|---|---|---|---|---|
17264961 | замена | G | C | 22 | 153.008 |
17273753 | замена | C | T | 31 | 148.008 |
17283383 | вставка | AGG | AGGG | 9 | 168.492 |
Клиническая аннотация SNP такова - некоторые SNP были в ходе GWAS ассоциированы с ростом, рассеянным склерозом, болезнью Альцгеймера и метаболическим синдромом, но в clinvar не попали, т.е. не была достаточным образом подтверждена их значимость в развитии заболеваний.
Вся полученная информация была сведена в одну таблицу
Команда | Зачем |
---|---|
fastqc chr19.fastq | анализ качества чтений |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr19.fastq chr19-trimmed.fastq TRAILING:20 MINLEN:50 | очиcтка чтений: удаление нуклеотидов с качеством ниже 20, затем удаление чтений длиной меньше 50 |
bwa index chr19.fasta | индексирование референсной последовательности |
bwa mem chr19.fasta chr19-trimmed.fastq > chr19.sam | выравнивание очищенных чтений с проиндексированной референсной последовательностью |
samtools view chr19.sam -b -o chr19.bam | перевод выравнивания в бинарный формат |
samtools sort -T /tmp/chr19_sorted -o chr19_sorted.bam chr19.bam | сортировка выравнивания по координате начала чтения в референсной последовательности |
samtools index chr19_sorted.bam | индексирование отсортированного файла |
samtools idxstats chr19_sorted.bam | для определения, сколько чтений откартировалось |
samtools mpileup -uf chr19.fasta chr19_sorted.bam -o chr19snp.bcf | создание файла с полиморфизмами |
bcftools call -cv chr19snp.bcf -o chr19snp.vcf | перевод .bcf файла в .vcf формат (в список отличий) |
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 chr19snp.vcf -outfile chr19snp.avinput | создание файла для annovar из .vcf файла |
perl /nfs/srv/databases/annovar/annotate_variation.pl -geneanno -dbtype refGene -buildver hg19 chr19snp.avinput -outfile chr19snp_refgene /nfs/srv/databases/annovar/humandb/ | аннотация по базе данных refgene (hg19) |
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype snp138 -buildver hg19 chr19snp.avinput -outfile chr19snp_snp138 /nfs/srv/databases/annovar/humandb/ | аннотация по базе данных dbsnp |
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 chr19snp.avinput -outfile chr19snp_1000g2014oct /nfs/srv/databases/annovar/humandb/ | аннотация по базе данных 1000genomes |
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -buildver hg19 chr19snp.avinput -outfile chr19snp_gwas /nfs/srv/databases/annovar/humandb/ | аннотация по базе данных gwas |
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 chr19snp.avinput -outfile chr19snp_clinvar /nfs/srv/databases/annovar/humandb/ | аннотация по базе данных clinvar |