Ресеквенирование. Поиск полиморфизмов у человека.
1. Подготовка чтений:
- Скачал файлы к себе в директорию:
cp /P/y14/term3/block4/SNP/reads/chr22.fastq
cp /nfs/srv/databases/ngs/Human/chr22.fasta - С помощью программы Trimmomatic была произведена очистка чтений (с конца каждого чтения отрезаны нуклеотиды с качеством ниже 20 (TRAILING:20), а также отсеяны чтения длиной меньше 50 нуклеотидов (MINLEN:50):
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr17.fastq chr17_out.fastq TRAILING:20 MINLEN:50 - С помощью программы FastQC сравнил качество изначального чтения и полученного после очистки:
fastqc chr22.fastq
fastqc chr22_out.fastq
Рисунок 1. Общая статистика до чистки. |
Рисунок 2. Общая статистика после чистки. |
Рисунок 1. "Per base quality" до чистки. |
Рисунок 2. "Per base quality" после чистки. |
Отсеялись чтения с длиной меньше 50 нуклеотидов после обрезания низкокачественных концов
2. Картирование чтений:
Для ксанирования очищенных чтений использовалась программа BWA. Сначала я проиндексировал референсную последовательность chr22.fasta:
bwa index chr22.fasta
Затем было построено выравнивание прочтений референса в формате .sam с использованием алгоритма mem:
bwa mem chr22.fasta chr22_out.fastq > align.sam
После этого с помощью пакета samtools файл с выравниванием был переведен в бинарный формат .bam:
samtools view align.sam -b -o align.bam
Получившийся файл был подан на вход другой команде, чтобы отсортировать выравнивание чтений с референсом по координате в референсе начала чтения:
samtools sort align.bam -T tmp.txt -o sort.bam
Параметр -T был задан для записи временных файлов в файл tmp.txt. Далее полученный файл был проиндексирован:
samtools index sort.bam
Затем я выяснил, сколько чтений откартировалось на геном:
samtools idxstats sort.bam > out.out
11090 чтений из 11091 было откартировано на хромосому; таким образом не было картировано только 1 чтение.
3. Анализ SNP:
Сначала был создан файл с полиморфизмами в формате .bcf с помощью команды:
samtools mpileup -uf chr22.fasta sort.bam -o snp.bcf
Потом был создан файл со списком отличий между референсом и чтениями в формате .vcf:
bcftools call -cv snp.bcf -o snp.vcf
Таблица 1. Описание трех полиморфизмов:
Координата | Тип полиморфизма | В референсе | В ридах | Глубина покрытия | Качество ридов |
---|---|---|---|---|---|
26220887 | Вставка | tcacacacatg | tCACACACATGAAcacacacatg | 2 | 71.224 |
26222247 | Замена | T | C | 4 | 90.5135 |
28656299 | Делеция | CTATAT | CTAT | 1 | 13.6619 |
Было получено 14 инделей и 214 snp (cat| grep | wc -l). В среднем, качество у найденных полиморфизмов хорошее (около 140), а покрытие не очень (около 20)
Затем необходимо было из файла snp_only.vcf (файл с удаленными инделями) получить файл, с которым может работать программа annovar:
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp-only.vcf -outfile snp.avinput
Далее была произведена аннотация с помощью баз данных: refgene, dbsnp, 1000 genomes, Gwas, Clinvar.
1) База refgene:
perl /nfs/srv/databases/annovar/annotate_variation.pl -out pol.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb
Были получены файлы pol.refgene.exonic_variant_function(файл с описанием SNP, попавших в экзоны), pol.refgene.log (файл с описанием прохождения работы), pol.refgene.variant_function (файл с описанием SNP по группам).
Таблица 2. Информация о SNP в экзонах
Координата | Тип замены | Ген | В референсе | В чтениях | Гетеро или гомозиготная замена | Качество чтений | Глубина покрытия |
---|---|---|---|---|---|---|---|
26159289 | несинонимичная | MYO18B | G | A | гомо | 221.999 | 19 |
26164390 | синонимичная | MYO18B | G | A | гетеро | 100.008 | 17 |
26164855 | несинонимичная | MYO18B | A | T | гетеро | 118.008 | 19 |
26166900 | несинонимичная | MYO18B | G | C | гомо | 221.999 | 27 |
26173661 | несинонимичная | MYO18B | T | C | гомо | 221.999 | 28 |
26222454 | несинонимичная | MYO18B | C | T | гомо | 221.999 | 28 |
26239850 | несинонимичная | MYO18B | С | A | гомо | 221.999 | 18 |
26286738 | несинонимичная | MYO18B | T | A | гетеро | 225.009 | 62 |
26342144 | синонимичная | MYO18B | G | A | гетеро | 75.0075 | 11 |
26422980 | несинонимичная | MYO18B | A | G | гетеро | 225.221 | 24 |
26423124 | несинонимичная | MYO18B | G | C | гетеро | 180.009 | 19 |
26423477 | несинонимичная | MYO18B | G | A | гетеро | 46.0072 | 13 |
26423535 | несинонимичная | MYO18B | G | A | гетеро | 46.0072 | 9 |
28378450 | несинонимичная | TTC28 | T | C | гетеро | 212.009 | 29 |
28378472 | синонимичная | TTC28 | A | G | гомо | 222.01 | 34 |
28389453 | синонимичная | TTC28 | T | C | гетеро | 51.0072 | 15 |
28504183 | синонимичная | TTC28 | G | A | гетеро | 167.009 | 17 |
28504258 | синонимичная | TTC28 | A | G | гетеро | 154.008 | 17 |
36661330 | несинонимичная | APOL1 | G | A | гетеро | 175.009 | 34 |
36661536 | синонимичная | APOL1 | C | A | гомо | 221.999 | 19 |
36661566 | несинонимичная | APOL1 | G | A | гомо | 221.999 | 17 |
36661646 | несинонимичная | APOL1 | G | A | гомо | 221.999 | 18 |
36661674 | несинонимичная | APOL1 | C | A | гетеро | 155.008 | 20 |
36661842 | синонимичная | APOL1 | G | A | гомо | 221.999 | 52 |
36661906 | несинонимичная | APOL1 | A | G | гетеро | 225.009 | 72 |
36662034 | несинонимичная | APOL1 | T | G | гетеро | 196.009 | 36 |
Таблица 3. Информация о SNP в различных группах
В интронах | В экзонах | ncRNA_intronic | ncRNA_exonic | Гомо | Гетеро |
---|---|---|---|---|---|
181 | 26 | 6 | 1 | 139 | 75 |
Из Таблицы 3 следует, что больше всего SNP в интронах, так как замена в некодирующей последовательности не приводит к замене аминокислоты. SNP в экзонах были лишь в генах MYO18B, TTC28 и APOL1.
2) База dbsnp:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out pol.dbsnp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb
Были получены файлы pol.dbsnp.hg19_snp138_dropped (SNP c rs), pol.dbsnp.hg19_snp138_filtered (без rs), pol.dbsnp.log. 176 SNP имеют rs, 38 нет.
3) База 1000 genomes:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out pol.1000 snp.avinput /nfs/srv/databases/annovar/humandb
Были получены файлы pol.1000.hg19_ALL.sites.2014_10_dropped, pol.1000.hg19_ALL.sites.2014_10_filtered, pol.1000.log.
Состав файлов здесь такой же, как в прошлой базе данных. Однако здесь аннотировано лишь 171, а 43 нет. Среднее значение частоты 0.374632128, минимальное - 0.00319489, максимальное - 0.9998.
4) База Gwas:
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -build hg19 -out pol.gwas -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb
Были получены файлы pol.gwas.hg19_gwasCatalog, pol.gwas.log. В основном файле содежатся SNP, имеющие какое-то значение в медицине. В моем случае 3 SNP аннотированы в данной базе данных. Один связан с математическими способностями детей с дислексией, другой с ожирением, а третий с гломерулосклерозом.
5) База Clinvar:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out pol.clinvar -dbtype clinvar_20150629 -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb
Были получены файлы clinvar.hg19_clinvar_20150629_dropped, clinvar.hg19_clinvar_20150629_filtered, pol.clinvar.log. Аннотированы 2 SNP в генах, связанных с фокальным сегментарным гломерулосклерозом.