I
С помощью программы FastQC был осуществлен контроль качества чтений. В результате работы команды fastqc chr9_2.fastq получена .html-страница.
II
Далее была сдеалана очистка чтений с помощью программы Trimmomatic. Команда java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr9_2.fastq trimm_out.fastq MINLEN:50 TRAILING:20 удаляет прочтения короче 50 (MINLEN:50) и удаляет нуклеотиды ниже качества «20» с конца прочтений (TRAILING:20). В результате получен файл trimm_out.fastq. До очистки было 2206 прочтений, после — 2204 (2 были удалены). Сравнение контроля качества до и после обработки. Для каждой позиции желтый прямойгольник — интерквартильный размах, красная линия — медиана, синяя линия — математическое ожидание. Чем выше значение по оси Y, тем лучше определено основание. Области фона также говорят о точности: зеленая — качество хорошее, оранжевая — среднее, красная — плохое. Видно, что до очистки качество было значительно хуже, в то время, как после все чтения оказались в «зеленой области».
III
Далее неоходимо провести картирование чтений с помощью программы BWA. Командой bwa index chr9.fasta хромосома 9 была проиндексирована. Затем, команой bwa mem chr9.fasta trimm_out.fastq >> align_pr9.sam было построено выравнивание прочтений и проиндексированной референсной последовательности (align_pr9.sam).
IV
Выравнивание было преведено в бинарный формат bam команой samtools view -b align_pr9.sam -o align_pr9.bam. Далее выравнивания чтений с референсом были отсортированы по координате начала чтения в референсе командой samtools sort align_pr9.bam align_sort (выходной файл align_sort.bam). Командой samtools index align_sort.bam отсортированный файл был проиндексирован. Было выяснено, сколько чтений откартировалось на геном (команда samtools idxstats align_sort.bam >> number.out) — это 2169 сиквенсов из 2204 изначальных.
V
Команой samtools mpileup -uf chr9.fasta align_sort.bam -o snp.bcf был создан .bcf-файл с полиморфизмами. Затем был создан .vcf-файл со списком отличий между референсом и чтениями командой bcftools call -cv snp.bcf -o snp.vcf. Всего было найдено 5 инделей и 60 полиморфизмов.
Позиция | В референсе | В чтениях | Тип полиморфизма | Глубина покрытия | Качество чтений |
136130741 | C | T | замена | 2 | 24.7788 |
136131056 | CGGG | CGG | делеция | 5 | 31.4863 |
136132908 | T | TC | вставка | 31 | 214.458 |
VI
С помощью программы annovar было необходимо проаннотировать только полученные snp, для чего из файла snp.vcf вручную были удачены индели (snp_only.vcf). Чтобы получить из файла snp_only.vcf получить файл, с которым может работать программа annovar, была использована команда perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp_only.vcf -outfile snp.avinput. Затем, полученный файл snp_only.avinput использовался для аннотации SNP по базам данных refgene, dbsnp, 1000 genomes, GWAS и Clinvar с помощью скрипта annotate_variation.pl.
Аннотация по базе refgene
После работы команды perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr9.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ были получены файлы chr9.refgene.variant_function (описание всех SNP), chr9.refgene.exonic_variant_function (описание SNP, попавших в экзоны) и chr9.refgene.log (описание процесса работы команды). В следующей таблице указана информация о SNP в различных группых, полученная из файла chr9.refgene.variant_function:
В интронах | В экзонах | 3'-UTR | Downstream | Гомозиготные | Гетерозиготные |
41 | 14 | 3 | 2 | 20 | 39 |
Вообще говоря, все возможные категории можно представить следующим списком:
- exonic — полиморфизм внутри экзона (частично или полностью)
- splicing — полиморфизм в пределах 2 bp от границы сплайсинга (число bp можно изменить)
- ncRNA — полиморфизм полностью или частично входит в транскрипт, не имеющий аннотации как кодирующий
- UTR5 — полиморфизм полностью или частично входит в 5′-нетранслируемую область
- UTR3 — полиморфизм полностью или частично входит в 3′-нетранслируемую область
- intronic — полиморфизм полностью или частично внутри интрона
- downstream — полиморфизм в пределах 1-kb downstream от сайта окончания транскрипции (параметр может быть изменен)
- upstream — полиморфизм в пределах 1-kb upstream от сайта начала транскрипции (параметр может быть изменен)
- intergenic — полиморфизм на пересечении генов
Далее будут описываться только краткие сводки по каждой из баз данных с SNP; в конце работы представлена сводная таблица по всем обнаруженным SNP.
Аннотация по базе dbSNP
В результате работы команды perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr9.dbsnp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/ были получены файлы chr9.dbsnp.hg19_snp138_dropped (SNP с идентификатором rs), chr9.dbsnp.hg19_snp138_filtered (SNP без rs) и chr9.dbsnp.log (описание работы программы). Всего было найдено 54 полиморфизма.
Аннотация по базе 1000 genomes
Командой perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr9.1000 -buildver hg19 -dbtype 1000g2014oct_all snp.avinput /nfs/srv/databases/annovar/humandb/ были получены 3 файла chr9.1000.hg19_ALL.sites.2014_10_dropped, chr9.1000.hg19_ALL.sites.2014_10_filtered, chr9.1000.log, аналогичные полученным в предыдущем пункте. Также мы смогли узнать частоты аннотированных полиморфизмов. Она варьируется от 0.0341454 до 0.786741. Среднее значение равно 0.786741.
Аннотация по базе GWAS
Была использована команда perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -out chr9.gwas -build hg19 -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb/. Получено 2 файла chr9.gwas.hg19_gwasCatalog (SNP, для которых известно клиническое значение) и chr9.gwas.log. SNP c клиническим значением всего 9 (подробнее они описаны в сводной таблице).
Аннотация по базе Clinvar
Была использована команда perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr9.clincar -buildver hg19 -dbtype clinvar_20150629 snp.avinput /nfs/srv/databases/annovar/humandb/. Получено 3 файла chr9.clincar.hg19_clinvar_20150629_dropped, chr9.clincar.hg19_clinvar_20150629_filtered, chr9.clincar.log. В этой базе данных аннотированы всего два полиморфизма из изучаемых.
Cводная таблица
Просуммировав сказанное, можно сказать, что анализируемые SNP имеют совершенно различную встречаемость и также по-разному влияют на состояние здоровья человека. Очень много SNP попали в гены системы определения группы крови AB0: эти полиморфизмы могут приводить к устойчивости к малярии, к разнообразным особенностям свёртываемости крови. Также некоторое количество SNP обнаружено в гене TNFSF15, который является ингибитором роста эндотелия сосудов. Такие полиморфизмы могут приводить к болезни Крона, воспалительным заболеваниям кишечника. Также полиморфизмы были обнаружены и в гене NDUFA8, который кодирует субъединицу NADH-дегидрогеназы. Эти SNP приводят к различным проблемам, связанным с ожирением.