Ресеквенирование. Поиск полиморфизмов у человека


Мне была дана хромосома 16 и, соответственно файлы chr16.fasta и chr16.fastq.

1. Анализ качества чтений
С помощью программы FastQC был осуществлен контроль качества чтений. В результате работы команды fastqc chr16.fastq получена html страница chr16_fastqc.html.

2. Очистка чтений
Далее была сдеалана очистка чтений с помощью программы Trimmomatic. Команда
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr16.fastq trimm_out.fastq MINLEN:50 TRAILING:20
удаляет прочтения короче 50 (MINLEN:50) и удаляет нуклеотиды ниже качества "20" с конца прочтений (TRAILING:20). В результате получен файл trimm_out.fastq.
Необходимо провести анализ прочтений после чистки и сравнить с результатом до него.
Командой fastqc trimm_out.fastq получена страница trimm_out_fastqc.html
До очистки было 3965 прочтений, после - 3962.


Рис. 1
Per base sequence quality до очистки


Рис. 2
Per base sequence quality после очистки

На рисунках 1 и 2 показаны качества прочтений до и после очистки по всем основаним в каждой позиции FastQ файла. Для каждой позиции желтый прямойгольник - интерквартильный размах (от 25 о 75%),концы черных линий - точки от 10 до 90%, красная линия - медиана, синяя линия - математическое ожидание. Чем выше значение по оси Y, тем лучше определено основание. Области фона также говорят о точности: зеленая - качество хорошее, оранжевая - среднее, красная - плохое.
Видно, что до очистки качество было значительно хуже, в то время, как после все чтения оказались в "зеленой области".

3. Картирование чтений
Далее неоходимо провести картирование чтений с помощью программы BWA.
Командой bwa index chr16.fasta хромосома 16 была проиндексирована.
Затем, команой bwa mem chr16.fasta trimm_out.fastq >> aiign_pr13.sam было построено выравнивание прочтений и проиндексированной референсной последовательности (align_pr13.sam).

4. Анализ выравнивания
Выравнивание было преведено в бинарный формат bam команой
samtool view -b align_pr13.sam -o align_pr13.bam
Параметр -b обозначает формат выходного файла (bam), -o - выходной файл (align_pr13.bam).
Далее выравнивания чтений с референсом были отсортированы по координате начала чтения в референсе командой
samtools sort align_pr13.bam align_sort (выходной файл align_sort.bam)
Командой samtools index align_sort.bam отсортированный файл был проиндексирован.
Было выяснено, сколько чтений откартировалось на геном
samtools idxstats align_sort.bam >> number.out
Откартировались все 3674 прочтения, что остались после очистки.

5. Поиск SNP и инделей
Команой samtools mpileup -uf chr16.fasta align_sort.bam -o snp.bcf был создан bcf-файл с полиморфизмами.
Затем, был создан vcf-файл со списком отличий между референсом и чтениями командой bcftools call -cv snp.bcf -o snp.vcf.
Всего получено 62 SNP и 2 инделя. В таблице №1 описаны 3 полиморфизма из файла snp.vcf.

Таблица №1
Информация о полиморфизмах
Позиция В референсе В чтениях Тип полиморфизма Глубина покрытия Качество чтений
11444454 gaaaaaaaaaaa gaaaaaaaaaa делеция 74 4,40924
11362640 G A замена 48 166.009
11348246 ACACTC ACACTCACTC вставка 5 10,8393

6. Аннотация SNP
С помощью программы annovar было необходимо проаннотировать только полученные snp, для чего из файла snp.vcf вручную были удачены индели (snp_only.vcf).
Чтобы получить из файла snp_only.vcf получить файл, с которым может работать программа annovar, была использована команда
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp_only.vcf -outfile snp.avinput.
Затем, полученный файл snp_only.avinput использовался для аннотации SNP по базам данных refgene, dbsnp, 1000 genomes, GWAS и Clinvar с помощью скрипта annotate_variation.pl.

1. Аннотация по базе refgene
После работы команды
perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr16.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/
были получены файлы chr16.refgene.variant_function (описание всех SNP), chr16.refgene.exonic_variant_function (описание SNP, попавших в экзоны) и chr17.refgene.log (описание процесса работы команды).
В таблице №2 указана информация о SNP в различных группых, полученная из файла chr16.refgene.variant_function.
В таблице №3 представлена информация о SNP в экзонах, полученная из файла chr16.refgene.exonic_variant_function. Всего в экзоны попало 9 SNP.

Таблица №2
Данные о SNP в различных группых
В интронах В экзонах UTR3 Гомо Гетеро
22 9 3 37 25

Таблица №3
Данные о SNP в экзонах
Координата Тип замены Ген В референсе В чтениях Замена аминокислоты Гетеро или гомозиготная замена Качество чтений Глубина покрытия
11362729 несинонимичная TNP2 G A R131W гетерозиготная 225,009 144
11367143 stopgain PRM3 G A R104X гомозиготная 221,999 32
11367154 несинонимичная PRM3 C T R100Q гомозиготная 222 27
11369938 несинонимичная PRM2 G A P97L гетерозиготная 142,008 24
11369947 несинонимичная PRM2 G A A94V гетерозиготная 144,008 24
11374866 синонимичная PRM1 G T R47R гомозиготная 221,999 38
11444572 синонимичная RMI2 A C T123T гетерозиготная 225,009 110
31096164 несинонимичная PRSS53 G C P406A гетерозиготная 148,077 7
56969148 несинонимичная HERPUD1 G A R50H гетерозиготная 225,009 79

Как видно из таблиц, большинство замен произошли в интронах. Это можно объяснить тем, что замены в кодирующих последовательностях могут привести в изменению аминокислоты в конечном продукте (белке), тем самым нарушив его функцию.

2. Аннотация по базе dbsnp
В результате работы команды
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr16.dbsnp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/
были получены файлы chr16.dbsnp.hg19_snp138_dropped (SNP с идентификатором rs), chr16.dbsnp.hg19_snp138_filtered (SNP без rs) и chr16.dbsnp.log (описание работы программы).
56 SNP имеют аннотацию в базе данных dbSNP, а 6 не имеют.

3. Аннотация по базе 1000 genomes
Командой /nfs/srv/databases/ngs/ulyana$ perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr16.1000 -buildver hg19 -dbtype 1000g2014oct_all snp.avinput /nfs/srv/databases/annovar/humandb/
были получены 3 файла chr16.1000.hg19_ALL.sites.2014_10_dropped, chr16.1000.hg19_ALL.sites.2014_10_filtered, chr16.1000.log, аналогичные полученным в предыдущем пункте.
56 имеют аннотация, а 6 не имеют.
Также мы смогли узнать частоты аннотированных полиморфизмов. Она варьируется от 0,004992 до 0,984026. Среднее значение равно 0,577354.

4. Аннотация по базе GWAS
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -out chr16.gwas -build hg19 -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb/
Получено 2 файла chr16.gwas.hg19_gwasCatalog ((SNP, для которых известно клиническое значение) и chr16.gwas.log.
Было найдено 3 таких SNP. Один связан с ожирением, другой вызывает предрасположенность к болезни Паркинсона, третий - к метаболическому синдрому.

5. Аннотация по базе Clinvar
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr16.clincar -buildver hg19 -dbtype clinvar_20150629 snp.avinput /nfs/srv/databases/annovar/humandb/
Получено 3 файла chr16.clincar.hg19_clinvar_20150629_dropped, chr16.clincar.hg19_clinvar_20150629_filtered, chr16.clincar.log.
Оказалось, что в этой базе данных ни один из изучаемых SNP не аннотирован.
Итоговый файл по всем SNP: pr13.xlsx.