Ресеквенирование. Поиск полиморфизмов у человека.

1. Подготовка чтений:

  1. Скачал файлы к себе в директорию:
    cp /P/y14/term3/block4/SNP/reads/chr22.fastq
    cp /nfs/srv/databases/ngs/Human/chr22.fasta
  2. С помощью программы Trimmomatic была произведена очистка чтений (с конца каждого чтения отрезаны нуклеотиды с качеством ниже 20 (TRAILING:20), а также отсеяны чтения длиной меньше 50 нуклеотидов (MINLEN:50):
    java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr17.fastq chr17_out.fastq TRAILING:20 MINLEN:50
  3. С помощью программы FastQC сравнил качество изначального чтения и полученного после очистки:
    fastqc chr22.fastq
    fastqc chr22_out.fastq

Рисунок 1. Общая статистика до чистки.

Рисунок 2. Общая статистика после чистки.

Рисунок 1. "Per base quality" до чистки.

Рисунок 2. "Per base quality" после чистки.

Отсеялись чтения с длиной меньше 50 нуклеотидов после обрезания низкокачественных концов

2. Картирование чтений:

Для ксанирования очищенных чтений использовалась программа BWA. Сначала я проиндексировал референсную последовательность chr22.fasta:
bwa index chr22.fasta

Затем было построено выравнивание прочтений референса в формате .sam с использованием алгоритма mem:
bwa mem chr22.fasta chr22_out.fastq > align.sam

После этого с помощью пакета samtools файл с выравниванием был переведен в бинарный формат .bam:
samtools view align.sam -b -o align.bam

Получившийся файл был подан на вход другой команде, чтобы отсортировать выравнивание чтений с референсом по координате в референсе начала чтения:
samtools sort align.bam -T tmp.txt -o sort.bam

Параметр -T был задан для записи временных файлов в файл tmp.txt. Далее полученный файл был проиндексирован:
samtools index sort.bam

Затем я выяснил, сколько чтений откартировалось на геном:
samtools idxstats sort.bam > out.out

11090 чтений из 11091 было откартировано на хромосому; таким образом не было картировано только 1 чтение.

3. Анализ SNP:

Сначала был создан файл с полиморфизмами в формате .bcf с помощью команды:
samtools mpileup -uf chr22.fasta sort.bam -o snp.bcf

Потом был создан файл со списком отличий между референсом и чтениями в формате .vcf:
bcftools call -cv snp.bcf -o snp.vcf

Таблица 1. Описание трех полиморфизмов:

Координата Тип полиморфизма В референсе В ридах Глубина покрытия Качество ридов
26220887 Вставка tcacacacatg tCACACACATGAAcacacacatg 2 71.224
26222247 Замена T C 4 90.5135
28656299 Делеция CTATAT CTAT 1 13.6619

Было получено 14 инделей и 214 snp (cat| grep | wc -l). В среднем, качество у найденных полиморфизмов хорошее (около 140), а покрытие не очень (около 20)

Затем необходимо было из файла snp_only.vcf (файл с удаленными инделями) получить файл, с которым может работать программа annovar:
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp-only.vcf -outfile snp.avinput

Далее была произведена аннотация с помощью баз данных: refgene, dbsnp, 1000 genomes, Gwas, Clinvar.

1) База refgene:

perl /nfs/srv/databases/annovar/annotate_variation.pl -out pol.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb

Были получены файлы pol.refgene.exonic_variant_function(файл с описанием SNP, попавших в экзоны), pol.refgene.log (файл с описанием прохождения работы), pol.refgene.variant_function (файл с описанием SNP по группам).

Таблица 2. Информация о SNP в экзонах

КоординатаТип заменыГенВ референсеВ чтениях Гетеро или гомозиготная заменаКачество чтенийГлубина покрытия
26159289несинонимичнаяMYO18BGA гомо221.99919
26164390синонимичнаяMYO18BGA гетеро100.00817
26164855несинонимичнаяMYO18BAT гетеро118.00819
26166900несинонимичнаяMYO18BGC гомо221.99927
26173661несинонимичнаяMYO18BTC гомо221.99928
26222454несинонимичнаяMYO18BCT гомо221.99928
26239850несинонимичнаяMYO18BСA гомо221.99918
26286738несинонимичнаяMYO18BTA гетеро225.00962
26342144синонимичнаяMYO18BGA гетеро75.007511
26422980несинонимичнаяMYO18BAG гетеро225.22124
26423124несинонимичнаяMYO18BGC гетеро180.00919
26423477несинонимичнаяMYO18BGA гетеро46.007213
26423535несинонимичнаяMYO18BGA гетеро46.00729
28378450несинонимичнаяTTC28TC гетеро212.00929
28378472синонимичнаяTTC28AG гомо222.0134
28389453синонимичнаяTTC28TC гетеро51.007215
28504183синонимичнаяTTC28GA гетеро167.00917
28504258синонимичнаяTTC28AG гетеро154.00817
36661330несинонимичнаяAPOL1GA гетеро175.00934
36661536синонимичнаяAPOL1CA гомо221.99919
36661566несинонимичнаяAPOL1GA гомо221.99917
36661646несинонимичнаяAPOL1GA гомо221.99918
36661674несинонимичнаяAPOL1CA гетеро155.00820
36661842синонимичнаяAPOL1GA гомо221.99952
36661906несинонимичнаяAPOL1AG гетеро225.00972
36662034несинонимичнаяAPOL1TG гетеро196.00936

Таблица 3. Информация о SNP в различных группах

В интронахВ экзонахncRNA_intronicncRNA_exonicГомоГетеро
181266113975

Из Таблицы 3 следует, что больше всего SNP в интронах, так как замена в некодирующей последовательности не приводит к замене аминокислоты. SNP в экзонах были лишь в генах MYO18B, TTC28 и APOL1.

2) База dbsnp:

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out pol.dbsnp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb

Были получены файлы pol.dbsnp.hg19_snp138_dropped (SNP c rs), pol.dbsnp.hg19_snp138_filtered (без rs), pol.dbsnp.log.
176 SNP имеют rs, 38 нет.

3) База 1000 genomes:

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out pol.1000 snp.avinput /nfs/srv/databases/annovar/humandb

Были получены файлы pol.1000.hg19_ALL.sites.2014_10_dropped, pol.1000.hg19_ALL.sites.2014_10_filtered, pol.1000.log.

Состав файлов здесь такой же, как в прошлой базе данных. Однако здесь аннотировано лишь 171, а 43 нет. Среднее значение частоты 0.374632128, минимальное - 0.00319489, максимальное - 0.9998.

4) База Gwas:

perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -build hg19 -out pol.gwas -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb

Были получены файлы pol.gwas.hg19_gwasCatalog, pol.gwas.log.
В основном файле содежатся SNP, имеющие какое-то значение в медицине. В моем случае 3 SNP аннотированы в данной базе данных. Один связан с математическими способностями детей с дислексией, другой с ожирением, а третий с гломерулосклерозом.

5) База Clinvar:

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out pol.clinvar -dbtype clinvar_20150629 -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb

Были получены файлы clinvar.hg19_clinvar_20150629_dropped, clinvar.hg19_clinvar_20150629_filtered, pol.clinvar.log.
Аннотированы 2 SNP в генах, связанных с фокальным сегментарным гломерулосклерозом.