Поиск полиморфизмов у человека.

Подготовка чтений

Сначала файл с чтениями был очищен с помощью программы Trimmomatic.

Рис.1. Скриншот качества чтений из выдачи fastqc до очистки.

Рис.2. Скриншот качества чтений из выдачи fastqc после очистки.
Чтений до очистки: 10410
Чтений после очистки: 10191
Отсеялись чтения, длина которых оказалась меньше 50 после обрезания нуклеотидов качеством по phred33 ниже 20.

Картирование чтений


Рис. 3. Скриншот выдачи программы samtools idxstats, в первой колонке - имя референсной последовательности, во второй - её длина, в третьей - сколько чтений откартировалось, в четвёртой - сколько не откартировалось.

Аннотация SNP

Таблица 1. Описание трёх полиморфизмов из файла VCF
Координата Тип полиморфизма Референс Риды Покрытие(в ридах) Качество
55516323 SNP T G 112 225.009
234172846 SNP G C 5 20.0499
234204113 SNP T C 137 221.999
Всего инделей: 7
Всего SNP: 73
У большинства замен покрытие плохое(несколько чтений), но встречаются замены с очень хорошим покрытием(несколько десятков чтений или даже больше 100 чтений). Качество же у всех разное: от ~3 до ~220.
Категории, на которые RefGene делит замены: exonic, intronic, UTR3, UTR5, ncRNAexonic.
Из получившихся SNP: 7 UTR3; 2 UTR5; 6 exonic; 63 intronic; 1 ncRNAexonic.
SNP попали в гены: CCDC88A, ATG16L1, MLPH и MIR6811.
SNP привели к различным заменам, как синонимичным, так и несинонимичным.
70 SNP имеют rs - идентификатор в базе данных RefSeq.
В базе данных 1000genomes большинство замен распространённые - от ~17% до ~90%. Есть редкая замена ~0.8% с хорошим качеством и покрытием.
Ссылка на сводную таблицу с SNP

Клиническая аннотация

В базе данных Clinvar одна из замен была ассоциирована с воспалительными заболеванием кишечника, такими как болезнь Крона и язвенный колит. Таблица 2. Список выполненных команд и значение каждой из них.
Команда Значение
fastqc chr2.fastq Анализ качества чтений
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr2.fastq chr2t.fastq TRAILING:20 MINLEN:50 Удаляет чтения с плохим качеством по phred33 или обрезает их.
bwa index chr2.fasta Индексирует референсную последовательность.
bwa mem chr2.fasta chr2t.fastq > chr2_exom.sam Картирует чтения на референсную последовательность, получается файл в формате sam.
samtools view -bo chr2_exom.bam chr2_exom.sam Переводит данные о картированных чтениях из формата sam в формат bam(бинарный).
samtools sort chr2_exom.bam chr2_exom.sorted Сортирует картированные чтения по координате начала чтения в референсе.
samtools index chr2_exom.sorted.bam Индексирует сортированный файл.
samtools idxstats chr2_exom.sorted.bam Показывает, сколько чтений откартировалось на референс.
samtools mpileup -uf chr2.fasta chr2_exom.sorted.bam > chr2_exom_SNPs.bcf Создаёт файл с информацией об SNP
bcftools call -cv chr2_exom_SNPs.bcf -o chr2_exom_SNPs.vcf Конвертирует файл в формате bcf в файл в формате vcf со списком отличий между референсом и чтениями.
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 chr2_exom_SNPs.vcf > chr2_exom_SNPs.avinput Переводит файл с заменами из формата vcf в формат avinput, с которым может работать программа annovar.
perl /nfs/srv/databases/annovar/annotate_variation.pl --geneanno -out refGene -build hg19 -dbtype refGene chr2_exom_SNPs.avinput /nfs/srv/databases/annovar/humandb/ Аннотирует файл с SNP по базе данных генов refGene.
perl /nfs/srv/databases/annovar/annotate_variation.pl --filter -out dbsnp -dbtype snp138 -build hg19 chr2_exom_SNPs.avinput /nfs/srv/databases/annovar/humandb/ Аннотирует файл с SNP по базе dbsnp.
perl /nfs/srv/databases/annovar/annotate_variation.pl --filter -out 1000genomes -dbtype 1000g2014oct_all -build hg19 chr2_exom_SNPs.avinput /nfs/srv/databases/annovar/humandb/ Аннотирует файл с SNP по базе 1000genomes.
perl /nfs/srv/databases/annovar/annotate_variation.pl --filter -out gwas -dbtype gwasCatalog -build hg19 chr2_exom_SNPs.avinput /nfs/srv/databases/annovar/humandb/ Аннотирует файл с SNP по базе GWAS.
perl /nfs/srv/databases/annovar/annotate_variation.pl --filter -out clinvar -dbtype clinvar_20150629 -build hg19 chr2_exom_SNPs.avinput /nfs/srv/databases/annovar/humandb/ Аннотирует файл с SNP по базе Clinvar.