Поиск и описание полиморфизмов.

 Часть 1.

Подготовка чтений.

КомандаФункция
fastqc chr3.fastq Информация о качества чтений.
fastqc chr3after.fastq
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr3.fastq chr3after.fastq TRAILING:20 MINLEN:50Очистка чтения с отрезанием с конца каждого чтения нуклеотидов с качеством ниже 20. Выделение чтений с длиной не меньшей 50 нуклеотидов.

Картинки FastQC "Per base quality":
Рисунок 1. До очистки.
Рисунок 2. После очистки.

Число чтений
ДоПосле
20932 20570

До очистки последние квартили выбивались из зеленой зоны. После очистки квартили выравнялись, а последние заметно снизились. Это может быть связано с тем, что мы убрали нуклеотиды на концах, имеющие низкое качество прочтения.

 Часть 2.

Картирование чтений.

КомандаФункция
hisat2-build chr3.fasta chr3 Индексация референсной последовательности.
hisat2 -x chr3 -U chr3after.fastq -S chr3.sam --no-softclip --no-spliced-alignmentПостроение выравнивания прочтений и референса в формате .sam.
samtools view chr3.sam -b -o chr3.bamПеревод выравниваний чтений с референсом в бинарный формат .bam.
samtools sort chr3.bam -T chr3.txt -o chr3sort.bamСортировка выравниваний чтений с референсом по координате в референсе начала чтения.
samtools index chr3sort.bamИндексирование отсортированного файла.

Из 20570 чтений откартировано на геном 20478 чтений. Число чтений, не картированных на хромосому - 92.

Объяснение параметров:
  • --no-spliced-alignment – запрещает создавать гэпы больших размеров в выравнивании.
  • --no-softclip – запрещает мягкое обрезание последовательностей.
  • -x – 'basename' индекса референсного генома.
  • -U – список файлов с ридами.
  • -S – файл SAM для записи вывода.
  • -o – имя выходного файла.
  •  Часть 3.

    Анализ SNP.

    КомандаФункция
    samtools mpileup -uf chr3.fasta chr3sort.bam -o chr3.bcf Создание файла с полиморфизмами в формате .bcf.
    bcftools call -cv chr3.bcf -o chr3.vcfСоздание файла со списком отличий между референсом и чтениями в формате .vcf.
    samtools view chr3.sam -b -o chr3.bamПеревод выравниваний чтений с референсом в бинарный формат .bam.
    samtools sort chr3.bam -T chr3.txt -o chr3sort.bamСортировка выравниваний чтений с референсом по координате в референсе начала чтения.
    samtools index chr3sort.bamИндексирование отсортированного файла.
    perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 /nfs/srv/databases/ngs/kamikki0/chr31.vcf > /nfs/srv/databases/ngs/kamikki0/chr3.annovПолучение файла, с которым можно работать.
    perl /nfs/srv/databases/annovar/annotate_variation.pl -out ref.gene -build hg19 chr3.annov /nfs/srv/databases/annovar/humandb/Аннотация полиморфизмов по базе данных refgene.
    perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 chr3.annov /nfs/srv/databases/annovar/humandb/Аннотация полиморфизмов по базе данных dbsnp.
    perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -out 1000gen -buildver hg19 chr3.annov /nfs/srv/databases/annovar/humandb/Аннотация полиморфизмов по базе данных 1000 genomes
    perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -out gwas -build hg19 chr3.annov /nfs/srv/databases/annovar/humandb/Аннотация полиморфизмов по базе данных Gwas
    perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out clinvar -dbtype clinvar_20150629 -buildver hg19 chr3.annov /nfs/srv/databases/annovar/humandb/Аннотация полиморфизмов по базе данных Clinvar

    3 примера найденных полиморфизмов.
    КоординатаТип полиморфизмаРеференс Чтение Глубина покрытия Качество чтения
    41291081ЗаменаG A 25 221.999
    41841811ВставкаTATTA TATTAATTA 27 217.468
    41877414ЗаменаT C 43 205.009
    Как видно из таблицы, приведенной выше:
  • По координате 41291081 произошла замена гуанина на аланина.
  • По координате 41841811 произошла вставка TTAA.
  • По координате 41877414 произошла замена тимина на цитозин.
  • Качество чтения во всех трёх случаях очень высокое.
  • Gwas: Было получено описание полиморфизмоф. Первый полиморфизм с координатами 41877414 (произошла замена T на C), этот ген отвечает за значения кровеносного давления. Второй полиморфизм с координатой 52720080 (произошла замена A на C), этот ген ассоциируется с уровнем гормона адипонектина. Два последних полиморфизма с координатами 171926373 и 171969077 (произошли замены), эти гены отвечают за значения роста.

    Clinvar: Было получено три файла, в двух из которых аннотированные и не аннотированные snp. Первый файл оказался пустым, из чего можно сделать вывод, что ни один snp в данной хромосоме не аннотирован по базе данных.

  • Всего было найдено 12 инделей и 218 SNP.
  • Глубина покрытия очень розниться, поэтому сложно что-то сказать о качестве, но в целом присутствует много полиморфизмов с высокими показателями.
  • Категории, на которые делится SNP: intronic, exonic, intergenic, ncRNA, UTR5, UTR3.
  • SNP, попавшие в гены - ULK4 и FNDC3B.
  • 179 SNP имеют rs.
  • Частота найденных пар: наименьшая - 0.000599042, наибольшая - 0.9996805.
  • Cводная таблица.
    [назад]

    © Бартыш Катя