Ресеквенирование. Поиск полиморфизмов у человека

I

С помощью программы FastQC был осуществлен контроль качества чтений. В результате работы команды fastqc chr9_2.fastq получена .html-страница.

II

Далее была сдеалана очистка чтений с помощью программы Trimmomatic. Команда java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr9_2.fastq trimm_out.fastq MINLEN:50 TRAILING:20 удаляет прочтения короче 50 (MINLEN:50) и удаляет нуклеотиды ниже качества «20» с конца прочтений (TRAILING:20). В результате получен файл trimm_out.fastq. До очистки было 2206 прочтений, после — 2204 (2 были удалены). Сравнение контроля качества до и после обработки. Для каждой позиции желтый прямойгольник — интерквартильный размах, красная линия — медиана, синяя линия — математическое ожидание. Чем выше значение по оси Y, тем лучше определено основание. Области фона также говорят о точности: зеленая — качество хорошее, оранжевая — среднее, красная — плохое. Видно, что до очистки качество было значительно хуже, в то время, как после все чтения оказались в «зеленой области».

III

Далее неоходимо провести картирование чтений с помощью программы BWA. Командой bwa index chr9.fasta хромосома 9 была проиндексирована. Затем, команой bwa mem chr9.fasta trimm_out.fastq >> align_pr9.sam было построено выравнивание прочтений и проиндексированной референсной последовательности (align_pr9.sam).

IV

Выравнивание было преведено в бинарный формат bam команой samtools view -b align_pr9.sam -o align_pr9.bam. Далее выравнивания чтений с референсом были отсортированы по координате начала чтения в референсе командой samtools sort align_pr9.bam align_sort (выходной файл align_sort.bam). Командой samtools index align_sort.bam отсортированный файл был проиндексирован. Было выяснено, сколько чтений откартировалось на геном (команда samtools idxstats align_sort.bam >> number.out) — это 2169 сиквенсов из 2204 изначальных.

V

Команой samtools mpileup -uf chr9.fasta align_sort.bam -o snp.bcf был создан .bcf-файл с полиморфизмами. Затем был создан .vcf-файл со списком отличий между референсом и чтениями командой bcftools call -cv snp.bcf -o snp.vcf. Всего было найдено 5 инделей и 60 полиморфизмов.

ПозицияВ референсеВ чтенияхТип полиморфизмаГлубина покрытияКачество чтений
136130741CTзамена224.7788
136131056CGGGCGGделеция531.4863
136132908TTCвставка31214.458

VI

С помощью программы annovar было необходимо проаннотировать только полученные snp, для чего из файла snp.vcf вручную были удачены индели (snp_only.vcf). Чтобы получить из файла snp_only.vcf получить файл, с которым может работать программа annovar, была использована команда perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp_only.vcf -outfile snp.avinput. Затем, полученный файл snp_only.avinput использовался для аннотации SNP по базам данных refgene, dbsnp, 1000 genomes, GWAS и Clinvar с помощью скрипта annotate_variation.pl.

Аннотация по базе refgene

После работы команды perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr9.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ были получены файлы chr9.refgene.variant_function (описание всех SNP), chr9.refgene.exonic_variant_function (описание SNP, попавших в экзоны) и chr9.refgene.log (описание процесса работы команды). В следующей таблице указана информация о SNP в различных группых, полученная из файла chr9.refgene.variant_function:

В интронахВ экзонах3'-UTRDownstreamГомозиготныеГетерозиготные
4114322039

Вообще говоря, все возможные категории можно представить следующим списком:
  1. exonic — полиморфизм внутри экзона (частично или полностью)
  2. splicing — полиморфизм в пределах 2 bp от границы сплайсинга (число bp можно изменить)
  3. ncRNA — полиморфизм полностью или частично входит в транскрипт, не имеющий аннотации как кодирующий
  4. UTR5 — полиморфизм полностью или частично входит в 5′-нетранслируемую область
  5. UTR3 — полиморфизм полностью или частично входит в 3′-нетранслируемую область
  6. intronic — полиморфизм полностью или частично внутри интрона
  7. downstream — полиморфизм в пределах 1-kb downstream от сайта окончания транскрипции (параметр может быть изменен)
  8. upstream — полиморфизм в пределах 1-kb upstream от сайта начала транскрипции (параметр может быть изменен)
  9. intergenic — полиморфизм на пересечении генов

Далее будут описываться только краткие сводки по каждой из баз данных с SNP; в конце работы представлена сводная таблица по всем обнаруженным SNP.

Аннотация по базе dbSNP

В результате работы команды perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr9.dbsnp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/ были получены файлы chr9.dbsnp.hg19_snp138_dropped (SNP с идентификатором rs), chr9.dbsnp.hg19_snp138_filtered (SNP без rs) и chr9.dbsnp.log (описание работы программы). Всего было найдено 54 полиморфизма.

Аннотация по базе 1000 genomes

Командой perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr9.1000 -buildver hg19 -dbtype 1000g2014oct_all snp.avinput /nfs/srv/databases/annovar/humandb/ были получены 3 файла chr9.1000.hg19_ALL.sites.2014_10_dropped, chr9.1000.hg19_ALL.sites.2014_10_filtered, chr9.1000.log, аналогичные полученным в предыдущем пункте. Также мы смогли узнать частоты аннотированных полиморфизмов. Она варьируется от 0.0341454 до 0.786741. Среднее значение равно 0.786741.

Аннотация по базе GWAS

Была использована команда perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -out chr9.gwas -build hg19 -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb/. Получено 2 файла chr9.gwas.hg19_gwasCatalog (SNP, для которых известно клиническое значение) и chr9.gwas.log. SNP c клиническим значением всего 9 (подробнее они описаны в сводной таблице).

Аннотация по базе Clinvar

Была использована команда perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr9.clincar -buildver hg19 -dbtype clinvar_20150629 snp.avinput /nfs/srv/databases/annovar/humandb/. Получено 3 файла chr9.clincar.hg19_clinvar_20150629_dropped, chr9.clincar.hg19_clinvar_20150629_filtered, chr9.clincar.log. В этой базе данных аннотированы всего два полиморфизма из изучаемых.

Cводная таблица

Просуммировав сказанное, можно сказать, что анализируемые SNP имеют совершенно различную встречаемость и также по-разному влияют на состояние здоровья человека. Очень много SNP попали в гены системы определения группы крови AB0: эти полиморфизмы могут приводить к устойчивости к малярии, к разнообразным особенностям свёртываемости крови. Также некоторое количество SNP обнаружено в гене TNFSF15, который является ингибитором роста эндотелия сосудов. Такие полиморфизмы могут приводить к болезни Крона, воспалительным заболеваниям кишечника. Также полиморфизмы были обнаружены и в гене NDUFA8, который кодирует субъединицу NADH-дегидрогеназы. Эти SNP приводят к различным проблемам, связанным с ожирением.