Работа велась с 20 хромосомой человека и её ридами. Все команды в конце страницы.
До обработки
После обработки
Данный график показывает определенные параметры прочтений. Желтые прямоугольники - интетквартильный интервал, т.е. значения от 25% до 75% всех значений, от него сверху и снизу черные линии, это от 10% до 90% значений, остальные на данной графике не отображаются. Красная линия на каждой интерквартиле - медиана, синия линия , проходящая через весь график - среднее значений. Если сравнить эти 2 графика, видно, что после чистки интервал от 10% до 90% значительно сузился, только нижние значения, т.е. с низким качеством, что как раз является целью очистки (на конце более плохие значения, чем в начале на обоих графиках). Также среднее значение после очистки находится внутри интерквартильных вариантов, и медиана возрасла.
Число ридов до очистки - 4661, после - 4472 (95,95%) (отброшено 189 (4,05%)) Cначала параметр TRAILING:20 привел к отрезанию нуклеотидов с плохим качеством с конца, затем параметр MINLEN:50 - к удалению ридов несоответствующей длины (меньше 50 п.о.)
Откартировались на хромосому почти все риды (кроме четырех).
es_posicel@kodomo:/nfs/srv/databases/ngs/es_posicel/pr13$ samtools idxstats chr20_sorted.bam chr20 63025520 4468 0 * 0 0 4
Найден 41 полиморфизм, все - однонуклеотидные замены.
Три из них:
Координата | Тип полиморфизма | Референс | Чтения | Глубина покрытия | Качество чтений |
---|---|---|---|---|---|
33961867 | замена | T | C | 19 | 150.008 |
33963485 | замена | G | C | 1 | 9.52546 |
33974207 | замена | A | G | 39 | 207.009 |
Качество
Максимальное качество полиморфизма 225.0, минимальное - 3.01. Среднее значение качества 68.4.
Категории
Категория | intronic | exonic | homo | hetero | intergenic | upstream | UTR5 |
---|---|---|---|---|---|---|---|
Количество полиморфизмов | 27 | 8 | 18 | 23 | 3 | 2 | 1 |
Полиморфизмы были обнаружены в следующих генах:
Аннотация получена с помощью команды ./annotate_variation.pl -filter -out 0_dbsn p -build hg19 -dbtype snp138 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ Имеют rs 30, не имеют 11.
Аннотация получена с помощью команды ./annotate_variation.pl -filter -out 0_1000genomes -build hg19 -dbtype 1000g2014oct_all 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ Аннотированных 30, неаннотированных 11 (те же самые, что и в dbsnp). Частота встречаемости разная: от 1,4% до 99,6%.
Аннотация получена с помощью команды ./annotate_variation.pl -regionanno -out 0_gwas -build hg19 -dbtype gwasCatalog 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ Три замены ассоциированы со следующими призраками человека: вес, псориаз, атрофия гиппокампа.
Аннотация получена с помощью команды ./annotate_variation.pl -filter -out 0_clinvar -build hg19 -dbtype clinvar_20140211 1_chr20.avin put /nfs/srv/databases/annovar/humand/ В этой базе данных ничего не нашлось.
Данные были сведены в таблицу
Использованные команды:
fastqc chr20.fastq | анализ чтений |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr20.fastq chr20_tr.fastq TRAILING:20 MINLEN:50 | очистка чтений: с конца удалены нуклеотиды с качеством ниже 20, и все чтения длиной меньше 50 нуклеотидов |
bwa index chr20.fasta | индексирование референсной последовательности |
bwa mem chr20.fasta chr20_tr.fastq > chr20.sam | построение выравнивания прочтения и референса |
samtools view -b -o chr20.bam chr20.sam | перевод файла в бинарный формат .bam |
samtools sort -T /tmp/chr20_sorted -o chr20_sorted.bam chr20.bam | сортировка по координате |
samtools index chr20_sorted.bam | индексирование |
samtools idxstats chr20_sorted.bam | подсчет количества откартированных чтений |
samtools mpileup -uf chr20.fasta chr20_sorted.bam -o chr20_snp.bcf | создание файла с полиморфизмами |
bcftools call -cv chr20_snp.bcf -o chr20_snp.vcf | создание файла со списком отличий между референсом и чтениями |
./convert2annovar.pl -format vcf4 chr20_snp.vcf -outfile 1_chr20.avinput | создание файла, с которым может работать annovar |
./annotate_variation.pl -out 0_refgene -build hg19 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ | аннотирует файл по базе |
./annotate_variation.pl -filter -out 0_dbsnp -build hg19 -dbtype snp138 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ | аннотирует по базе данных dbsnp |
./annotate_variation.pl -filter -out 0_1000genomes -build hg19 -dbtype 1000g2014oct_all 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ | аннотирует файл по базе данных 1000genomes |
./annotate_variation.pl -regionanno -out 0_gwas -build hg19 -dbtype gwasCatalog 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ | аннотирует файл по базе данных GWAS |
./annotate_variation.pl -filter -out 0_clinvar -build hg19 -dbtype clinvar_20140211 1_chr20.avinput /nfs/srv/databases/annovar/humand | аннотирует файл по базе данных Clinvar |