Ресеквенирование. Поиск полиморфизмов у человека
Ресеквенирование. Поиск полиморфизмов у человека
Мне была дана хромосома 16 и, соответственно файлы chr16.fasta и chr16.fastq.
1. Анализ качества чтений
С помощью программы FastQC был осуществлен контроль качества чтений. В результате работы команды fastqc chr16.fastq получена html страница chr16_fastqc.html.
2. Очистка чтений
Далее была сдеалана очистка чтений с помощью программы Trimmomatic. Команда
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr16.fastq trimm_out.fastq MINLEN:50 TRAILING:20
удаляет прочтения короче 50 (MINLEN:50) и
удаляет нуклеотиды ниже качества "20" с конца прочтений (TRAILING:20). В результате получен файл trimm_out.fastq.
Необходимо провести анализ прочтений после чистки и сравнить с результатом до него.
Командой fastqc trimm_out.fastq получена страница trimm_out_fastqc.html
До очистки было 3965 прочтений, после - 3962.
|
Рис. 1 Per base sequence quality до очистки |
|
Рис. 2 Per base sequence quality после очистки |
На рисунках 1 и 2 показаны качества прочтений до и после очистки по всем основаним в каждой позиции FastQ файла.
Для каждой позиции желтый прямойгольник - интерквартильный размах (от 25 о 75%),концы черных линий - точки от 10 до 90%, красная линия - медиана,
синяя линия - математическое ожидание.
Чем выше значение по оси Y, тем лучше определено основание. Области фона также говорят о точности: зеленая - качество хорошее, оранжевая - среднее, красная - плохое.
Видно, что до очистки качество было значительно хуже, в то время, как после все чтения оказались в "зеленой области".
3. Картирование чтений
Далее неоходимо провести картирование чтений с помощью программы BWA.
Командой bwa index chr16.fasta хромосома 16 была проиндексирована.
Затем, команой bwa mem chr16.fasta trimm_out.fastq >> aiign_pr13.sam было построено выравнивание прочтений и проиндексированной референсной последовательности (align_pr13.sam).
4. Анализ выравнивания
Выравнивание было преведено в бинарный формат bam команой
samtool view -b align_pr13.sam -o align_pr13.bam
Параметр -b обозначает формат выходного файла (bam), -o - выходной файл (align_pr13.bam).
Далее выравнивания чтений с референсом были отсортированы по координате начала чтения в референсе командой
samtools sort align_pr13.bam align_sort (выходной файл align_sort.bam)
Командой samtools index align_sort.bam отсортированный файл был проиндексирован.
Было выяснено, сколько чтений откартировалось на геном
samtools idxstats align_sort.bam >> number.out
Откартировались все 3674 прочтения, что остались после очистки.
5. Поиск SNP и инделей
Команой samtools mpileup -uf chr16.fasta align_sort.bam -o snp.bcf был создан bcf-файл с полиморфизмами.
Затем, был создан vcf-файл со списком отличий между референсом и чтениями командой bcftools call -cv snp.bcf -o snp.vcf.
Всего получено 62 SNP и 2 инделя.
В таблице №1 описаны 3 полиморфизма из файла snp.vcf.
Таблица №1 Информация о полиморфизмах |
|||||
Позиция | В референсе | В чтениях | Тип полиморфизма | Глубина покрытия | Качество чтений |
11444454 | gaaaaaaaaaaa | gaaaaaaaaaa | делеция | 74 | 4,40924 |
11362640 | G | A | замена | 48 | 166.009 |
11348246 | ACACTC | ACACTCACTC | вставка | 5 | 10,8393 |
6. Аннотация SNP
С помощью программы annovar было необходимо проаннотировать только полученные snp, для чего из файла snp.vcf вручную были удачены индели (snp_only.vcf).
Чтобы получить из файла snp_only.vcf получить файл, с которым может работать программа annovar,
была использована команда
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp_only.vcf -outfile snp.avinput.
Затем, полученный файл snp_only.avinput использовался для аннотации SNP по базам данных refgene, dbsnp, 1000 genomes, GWAS и Clinvar с помощью скрипта annotate_variation.pl.
1. Аннотация по базе refgene
После работы команды
perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr16.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/
были получены файлы chr16.refgene.variant_function (описание всех SNP), chr16.refgene.exonic_variant_function (описание SNP, попавших в экзоны) и chr17.refgene.log (описание процесса работы команды).
В таблице №2 указана информация о SNP в различных группых, полученная из файла chr16.refgene.variant_function.
В таблице №3 представлена информация о SNP в экзонах, полученная из файла chr16.refgene.exonic_variant_function. Всего в экзоны попало 9 SNP.
Таблица №2 Данные о SNP в различных группых |
||||
В интронах | В экзонах | UTR3 | Гомо | Гетеро |
22 | 9 | 3 | 37 | 25 |
Таблица №3 Данные о SNP в экзонах |
||||||||
Координата | Тип замены | Ген | В референсе | В чтениях | Замена аминокислоты | Гетеро или гомозиготная замена | Качество чтений | Глубина покрытия |
11362729 | несинонимичная | TNP2 | G | A | R131W | гетерозиготная | 225,009 | 144 |
11367143 | stopgain | PRM3 | G | A | R104X | гомозиготная | 221,999 | 32 |
11367154 | несинонимичная | PRM3 | C | T | R100Q | гомозиготная | 222 | 27 |
11369938 | несинонимичная | PRM2 | G | A | P97L | гетерозиготная | 142,008 | 24 |
11369947 | несинонимичная | PRM2 | G | A | A94V | гетерозиготная | 144,008 | 24 |
11374866 | синонимичная | PRM1 | G | T | R47R | гомозиготная | 221,999 | 38 |
11444572 | синонимичная | RMI2 | A | C | T123T | гетерозиготная | 225,009 | 110 |
31096164 | несинонимичная | PRSS53 | G | C | P406A | гетерозиготная | 148,077 | 7 |
56969148 | несинонимичная | HERPUD1 | G | A | R50H | гетерозиготная | 225,009 | 79 |
Как видно из таблиц, большинство замен произошли в интронах. Это можно объяснить тем, что замены в кодирующих последовательностях могут привести в изменению аминокислоты в конечном продукте (белке), тем самым нарушив его функцию.
2. Аннотация по базе dbsnp
В результате работы команды
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr16.dbsnp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/
были получены файлы chr16.dbsnp.hg19_snp138_dropped (SNP с идентификатором rs), chr16.dbsnp.hg19_snp138_filtered (SNP без rs) и chr16.dbsnp.log (описание работы программы).
56 SNP имеют аннотацию в базе данных dbSNP, а 6 не имеют.
3. Аннотация по базе 1000 genomes
Командой /nfs/srv/databases/ngs/ulyana$ perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr16.1000 -buildver hg19 -dbtype 1000g2014oct_all snp.avinput /nfs/srv/databases/annovar/humandb/
были получены 3 файла chr16.1000.hg19_ALL.sites.2014_10_dropped, chr16.1000.hg19_ALL.sites.2014_10_filtered, chr16.1000.log, аналогичные полученным в предыдущем пункте.
56 имеют аннотация, а 6 не имеют.
Также мы смогли узнать частоты аннотированных полиморфизмов. Она варьируется от 0,004992 до 0,984026. Среднее значение равно 0,577354.
4. Аннотация по базе GWAS
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -out chr16.gwas -build hg19 -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb/
Получено 2 файла chr16.gwas.hg19_gwasCatalog ((SNP, для которых известно клиническое значение) и chr16.gwas.log.
Было найдено 3 таких SNP. Один связан с ожирением, другой вызывает предрасположенность к болезни Паркинсона, третий - к метаболическому синдрому.
5. Аннотация по базе Clinvar
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr16.clincar -buildver hg19 -dbtype clinvar_20150629 snp.avinput
/nfs/srv/databases/annovar/humandb/
Получено 3 файла chr16.clincar.hg19_clinvar_20150629_dropped, chr16.clincar.hg19_clinvar_20150629_filtered, chr16.clincar.log.
Оказалось, что в этой базе данных ни один из изучаемых SNP не аннотирован.
Итоговый файл по всем SNP: pr13.xlsx.