Поиск и описание полиморфизмов

1. Подготовка чтений и анализ выравниваний

Таблица 1. Использованные команды
Команда Что делает
hisat2-build chr2.fasta Индексация референса
fastqc chr2.fastq Анализ программой FastQC.Получаем отчет в виде html файла
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr2.fastq chr2_trimmed.fastq TRAILING:20 MINLEN:50 Очистка при помощи Trimmomatic. Чтения одноконцевые. Необходимо обрезать с конца нуклеотды с качеством ниже 20 и убрать все последовательности длиной менее 50.
hisat2 -x chr2_denwer02 -U chr8_trimmed.fastq -S chr8_aligntoref.sam --no-softclip --no-spliced-alignment Картирование чтений из fastq файла на проиндексированную последовательность. --nosoftclip - выравнивание по всему риду; --no-spliced-alignment - выравнивание без гэпов и инделей в риде
samtools view -b chr8_aligntoref.sam -o chr8_aligntoref.bam Перевод в bam формат
samtools sort chr8_aligntoref.bam chr8_altoref_sorted Сортировка выравниваний по координате в референсе
samtools index chr8_altoref_sorted.bam Индексирование
samtools mpileup -u -f chr8.fasta -o chr8_polymorph.bcf chr8_altoref_sorted.bam Создание файла с полиморфизмами
bcftools call -cv -o chr2_polym.vcf chr2_polym.bcf Изменение формата, -v - output variant sites only - показать только изменившиеся позиции
Координаты второго транскрипта hg38 chr2:157,736,446-157,875,842
vcftools --vcf chr2_polym.vcf --remove-indels --recode --out chr2_polym_noindel Удалить из vcf файла индели
convert2annovar.pl -format vcf4 chr2_polym_noindel.recode.vcf -outfile chr2_polym.annovar Конвертация в формат, который распознает annovar
annotate_variation.pl -outfile chr2_refgene -buildver hg19 -dbtype refGene chr2_polym.annovar Аннотация по refgene, на генной разметке
annotate_variation.pl -filter -outfile chr2_dbsnp -buildver hg19 -dbtype snp138 chr2_polymorph.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по dbsnp, основана на фильтрации
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -outfile chr2_1000g chr2_polym.annovar /nfs/srv/databases/annovar/humandb.old/ Аннотация по 1000 genomes, основана на фильтрации
annotate_variation.pl -regionanno –buildver hg19 -outfile chr2_gwas -dbtype gwasCatalog chr2_polym.annovar /nfs/srv/databases/annovar/humandb.old/ Аннотация по GWAS, основана на разметке других регионов генома
annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 -outfile chr2_clinvar chr2_polym.annovar /nfs/srv/databases/annovar/humandb.old/ Аннотация по Clinvar, основана на фильтрации
Flowers in Chania

Рис. 1. Оценка качества чтений до триммирования

Flowers in Chania

Рис. 2. Оценка качества чтений после триммирования

Было получено 10410 ридов длиной от 40 до 100 нуклеотидов, а среднее качество прочтения - около 38%. После очистки чтений их количество уменьшилось до 10191. На рисунках 1 и 2 можно видеть оценку качества чтений, полученную с помощью программы FastQC. По ним видно, что теперь качество каждого рида выше 20 и не располагается в красной области. Увеличилось среднее арифмитическое всех прочтений и общее качество данных немного улучшилось, поэтому триммирование оправдано. Результат работы Trimmomatic: TrimmomaticSE: Started with arguments: -phred33 chr2.fastq chr2_trimmed.fastq TRAILING:20 MINLEN:50 Input Reads: 10410 Surviving: 10191 (97,90%) Dropped: 219 (2,10%) TrimmomaticSE: Completed successfully Результат работы Hisat2: 10191 (100.00%) were unpaired; of these: 47 (0.46%) aligned 0 times 10140 (99.50%) aligned exactly 1 time 4 (0.04%) aligned >1 times 99.54% overall alignment rate 99,5% чтений выравнились 1 раз, всего 4 рида выравнились 2 и более раза и 47 прочтений, что составляет около 0,46% не выравнились. Можно сказать, что качество картирования довольно высокое.

2.Анализ SNP

Для описания snp и инделей был получен файл chr2_polym.vcf. Он содержит описания 79 полиморфизмов, из которых 7 - индели. Глубина покрытия указана в последнем столбце (DP), а качество покрытия можно посмотреть в столбце Qual. Все полученный данные занесены в таблицу 2. При анализе полиморфизмов были получены следующие значения: среднее арифмитическое - 70,46, медиана - 127,23, то есть ровно половина значений немного превышают медиану. Среднее значение глубины покрытий - 15,73, медиана - 3,5 (лучше характеризует этот показатель, так как примерно половина ридов накладываются на геном меньше четырех раз, но за счет участков с большой глубиной покрытия среднее арифмитическое завышено).

Таблица 2. Полиморфизмы.
КоординатаТипРеференсЧтениеГлубина покрытияКачество чтения
234197717 Замена С G 26 104.008
234201186 Замена А G 14 126.008
234202274 Вставка ТСС ТССС 1 3.80767

3.Аннотация SNP

Программа convert2annovar.pl для файла только с SNP показала, что из 72 замен 50 являются транзициями, а 22 трансверсиями. Далее производилась аннотация полученного файла по различным базам. При аннотации по refgene был получен файл chr2_refgene, в котором описано в каких участках ДНК произошли замены: exonic (6), UTR3 (6), UTR5 (2),ncRNA_exonic (1), intronic (57). Гены, в которые попали SNP: CCCDC88A, ATG16L1, MLPH. Для шести замен, попавших в экзоны в файле chr2_refgene.exonic_variant_function, cинонимичной является только попавшая в ген MLPH. Из аннотации по базе snp можно понять, сколько snp имееют rs. Информация лежит в файле snp138.hg19_snp138_dropped, получается, что 67 snp имеют rs, то есть это те замены, которые есть в банке snp. Оставшихся 5 замен в банке нет, они лежат в файле snp138.hg19_snp138_filtered. Также была посчитана средняя частота найденных snp по аннотации по базе 1000 Genomes. Она составила 37.7%, но она очень сильно варьируется, есть как часто встречающиеся snp, так и редкие. Одна аннотированная в Clinvar замена относится к заменам, вызывающим воспаление кишечника. В то же время, благодаря аннотации по GWAS, известно, что 2 полиморфизма ассоциированы с болезнью Крона, которое относится к воспалительным заболеваниям кишечника; однако оба snp находятся в гетерозиготном состоянии, поэтому нельзя точно говорить о фенотипическом проявлении этого варианта. Еще 1 полиморфизм вызывает рак простаты, и оставшийся полиморфизм скорее всего связан с особенностями роста (отмечен в gwasCatalog как "Height").