На главную

Поиск и описание полиморфизмов у пациента

Анализ качества чтений

Работа велась с 20 хромосомой человека и её ридами. Все команды в конце страницы.

Подготовка чтений

До обработки

После обработки

Данный график показывает определенные параметры прочтений. Желтые прямоугольники - интетквартильный интервал, т.е. значения от 25% до 75% всех значений, от него сверху и снизу черные линии, это от 10% до 90% значений, остальные на данной графике не отображаются. Красная линия на каждой интерквартиле - медиана, синия линия , проходящая через весь график - среднее значений. Если сравнить эти 2 графика, видно, что после чистки интервал от 10% до 90% значительно сузился, только нижние значения, т.е. с низким качеством, что как раз является целью очистки (на конце более плохие значения, чем в начале на обоих графиках). Также среднее значение после очистки находится внутри интерквартильных вариантов, и медиана возрасла.

Число ридов до очистки - 4661, после - 4472 (95,95%) (отброшено 189 (4,05%)) Cначала параметр TRAILING:20 привел к отрезанию нуклеотидов с плохим качеством с конца, затем параметр MINLEN:50 - к удалению ридов несоответствующей длины (меньше 50 п.о.)

Картирование чтений

Откартировались на хромосому почти все риды (кроме четырех).

es_posicel@kodomo:/nfs/srv/databases/ngs/es_posicel/pr13$ samtools idxstats chr20_sorted.bam
chr20   63025520        4468    0
*       0       0       4

Поиск SNP

Найден 41 полиморфизм, все - однонуклеотидные замены.

Три из них:

Координата Тип полиморфизма Референс Чтения Глубина покрытия Качество чтений
33961867 замена T C 19 150.008
33963485 замена G C 1 9.52546
33974207 замена A G 39 207.009

Качество

Максимальное качество полиморфизма 225.0, минимальное - 3.01. Среднее значение качества 68.4.

Категории

  • exonic — полиморфизм внутри экзона (частично или полностью)
  • splicing — полиморфизм в пределах 2 bp от границы сплайсинга (число bp можно изменить)
  • ncRNA — полиморфизм полностью или частично входит в транскрипт, не имеющий аннотации как кодирующий
  • UTR5 — полиморфизм полностью или частично входит в 5'-нетранслируемую область
  • UTR3 — полиморфизм полностью или частично входит в 3'-нетранслируемую область
  • intronic — полиморфизм полностью или частично внутри интрона
  • downstream — полиморфизм в пределах 1-kb downstream от сайта окончания транскрипции (параметр может быть изменен)
  • upstream — полиморфизм в пределах 1-kb upstream от сайта начала транскрипции (параметр может быть изменен)
  • intergenic — полиморфизм на пересечении генов
  • Категория intronic exonic homo hetero intergenic upstream UTR5
    Количество полиморфизмов 27 8 18 23 3 2 1

    Полиморфизмы были обнаружены в следующих генах:

  • GDF5
  • SPATA2
  • ZBP1
  • UQCC1
  • Аннотация SNP

    База данных dbsnp

    Аннотация получена с помощью команды ./annotate_variation.pl -filter -out 0_dbsn p -build hg19 -dbtype snp138 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ Имеют rs 30, не имеют 11.

    База данных 1000 genomes

    Аннотация получена с помощью команды ./annotate_variation.pl -filter -out 0_1000genomes -build hg19 -dbtype 1000g2014oct_all 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ Аннотированных 30, неаннотированных 11 (те же самые, что и в dbsnp). Частота встречаемости разная: от 1,4% до 99,6%.

    База данных GWAS

    Аннотация получена с помощью команды ./annotate_variation.pl -regionanno -out 0_gwas -build hg19 -dbtype gwasCatalog 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ Три замены ассоциированы со следующими призраками человека: вес, псориаз, атрофия гиппокампа.

    База данных Clinvar.

    Аннотация получена с помощью команды ./annotate_variation.pl -filter -out 0_clinvar -build hg19 -dbtype clinvar_20140211 1_chr20.avin put /nfs/srv/databases/annovar/humand/ В этой базе данных ничего не нашлось.

    Данные были сведены в таблицу

    Использованные команды:

    fastqc chr20.fastq анализ чтений
    java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr20.fastq chr20_tr.fastq TRAILING:20 MINLEN:50 очистка чтений: с конца удалены нуклеотиды с качеством ниже 20, и все чтения длиной меньше 50 нуклеотидов
    bwa index chr20.fasta индексирование референсной последовательности
    bwa mem chr20.fasta chr20_tr.fastq > chr20.sam построение выравнивания прочтения и референса
    samtools view -b -o chr20.bam chr20.sam перевод файла в бинарный формат .bam
    samtools sort -T /tmp/chr20_sorted -o chr20_sorted.bam chr20.bam сортировка по координате
    samtools index chr20_sorted.bam индексирование
    samtools idxstats chr20_sorted.bam подсчет количества откартированных чтений
    samtools mpileup -uf chr20.fasta chr20_sorted.bam -o chr20_snp.bcf создание файла с полиморфизмами
    bcftools call -cv chr20_snp.bcf -o chr20_snp.vcf создание файла со списком отличий между референсом и чтениями
    ./convert2annovar.pl -format vcf4 chr20_snp.vcf -outfile 1_chr20.avinput создание файла, с которым может работать annovar
    ./annotate_variation.pl -out 0_refgene -build hg19 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ аннотирует файл по базе
    ./annotate_variation.pl -filter -out 0_dbsnp -build hg19 -dbtype snp138 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ аннотирует по базе данных dbsnp
    ./annotate_variation.pl -filter -out 0_1000genomes -build hg19 -dbtype 1000g2014oct_all 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ аннотирует файл по базе данных 1000genomes
    ./annotate_variation.pl -regionanno -out 0_gwas -build hg19 -dbtype gwasCatalog 1_chr20.avinput /nfs/srv/databases/annovar/humandb/ аннотирует файл по базе данных GWAS
    ./annotate_variation.pl -filter -out 0_clinvar -build hg19 -dbtype clinvar_20140211 1_chr20.avinput /nfs/srv/databases/annovar/humand аннотирует файл по базе данных Clinvar

    © Посицельская Екатерина, 2015