Поиск и описание полиморфизмов

Таблица 1.

Использованные команды

Команда Описание
hisat2-build chr13.fasta Индексация референса
fastqc chr13.fastq Анализ программой FastQ
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr13.fastq chr13_trim.fastq TRAILING:20 MINLEN:50 Очистка чтений
hisat2 -x chr13 -U chr13_trim.fastq -S chr13_al.sam --no-softclip --no-spliced-alignment Картирование fastq файлов, выравниывние
samtools view -b chr13_al.sam -o chr13_al.bam Перевод выравнивания в бинарный формат
samtools sort chr13_al.bam chr13_al_sort Сортировка выравниваний по координате в референсе
samtools mpileup -uf chr13.fasta chr13_al_sort.bam -o chr13_snp.bcf Создание файла с полиморфизмами
samtools flagstat chr13_al.sam Получение информации о картировании
bcftools call -cv chr13_snp.bcf -o chr13_snp.vcf Перевод файла в vcf формат
vcftools --vcf chr13_snp.vcf --remove-indels --recode --out chr13_snp_nn Удаление инделей
convert2annovar.pl -format vcf4 chr13_snp_nn.recode.vcf -outfile chr13_snp.annovar Конвертирование в annovar
annotate_variation.pl -out chr13_refgene -build hg19 chr13_snp.annovar /nfs/srv/databases/annovar/humandb.old/ Аннотация в RefGene
annotate_variation.pl -filter -out chr13_dbsnp -build hg19 -dbtype snp138 chr13_snp.annovar /nfs/srv/databases/annovar/humandb.old/ Аннотация в dbsnp
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out chr13_1000genomes chr13_snp.annovar /nfs/srv/databases/annovar/humandb.old/ Аннотация в 1000 genomes
annotate_variation.pl -regionanno -build hg19 -out chr13_gwas -dbtype gwasCatalog chr13_snp.annovar /nfs/srv/databases/annovar/humandb.old/ Аннотация в Gwas
annotate_variation.pl chr13_snp.annovar /nfs/srv/databases/annovar/humandb.old/ -filter -dbtype clinvar_20150629 -buildver hg19 -out chr13_clinvar Аннотация в Clinvar

Анализ и очистка чтений

Была проанализировнна 13-ая хромосома.
Было получено 12155 чтений длинной 39-100 нуклеотидов.
Как видно из Рис.1 качество чтений до отчистки оставляет желать лучшего, особенно хвосты последних ридов. Работа программы Trimmomatic, которая убрала нуклеотиды качеством ниже 20 и чтения длиной меньше 50 нуклеотидов, помогла исправить "отросшие" усы у боксов, оставив после себя 11933 рида. Результат ее работы можно видеть на Рис.2.
GC-content также показывает качество ридов, в случае с нашей хромосомой он получился далек от нормального распределения, поэтому были использованы разные параметры для работы Trimmomatic в целях исправить эту проблему - не помогло: график становился более гладким, но нормального распределения достичь не удалось.


Рис. 1 Качество чтений до отчистки


Рис. 2 Качество чтений после отчистки

Картирование

Всего было картировано 99,02% чтений, что является отличным результатом.
Было выбрано 3 полиморфизма из 178 (из которых 13 индели) из .vcf файла(таблица 2).
Анализ полиморфизмов дал следующие результаты:
Для качества прочтений:
Медиана:48
Среднее арифметическое:84
Для глубины покрытия:
Медиана:6
Среднее арифметическое:17,5
Полученные данные говорят о высоком качестве, поскольку средний рид почти в 2 раза больше медианы, аналогично с глубиной покрытия, в случае с ней медиана меньше даже в 3 раза.

Таблица 2.

Полиморфизмы

Координата Тип Референс Чтение Глубина покрытия Качество чтения
110856153 Замена A C 9 138.032
25511130 Делеция T TCA 9 198.472
50092127 Вставка TACTCA TA 97 217.468

Анотации

Refgene разделяет snp на 2 файла exonic_variant_function и variant_function.
exonic_variant:
В эту группу попало 10 snp, подразделеные на синонимичные (7) и несинонимичные (3),
Которые содержаться в генах TPTE2 (2), PHF11 (1), COL4A1(7).
variant_function:
В эту группу попало 163 snp, подразделеные на intergenic(2), intronic(86), exonic(9), UTR5(1), ncRNA_exonic(11), ncRNA_intronic(52), downstream(1), upstream(1),
Которые содержаться в генах TPTE2(10), TPTE2P6(15), TPTE2P1(50), PHF11 (3) MRPS31P5(1),LINC00421(1), COL4A1(83).
SNP имеющих rs: 140.
Для 121 snp, выявленных в 1000 Genomes средняя частота составила 0.511. Среди них есть довольно редкие с хорошим покрытием, например в позиции 110807776.
С помощью анотации GWAS удалось выяснить, что найденные snp влияют на предрасположенность к ожтрению, гипертрофию сердца и артериальный стиффнесс(последствие старения, приводящие к сердечным приступам).
Аннотация Clinvar не дала результатов.