Задание 1

КомандаФункция
fastqc chr10.fastqВыдает информацию о качестве прочтений chr10.fastq
java -jar /usr/share/java/trimmomatic.jar SE
-phred33 chr10.fastq trim_chr10.fastq TRAILING:20 MINLEN:50
Выдает файл trim_chr10.fastq, где отрезаны с концов
прочтений нуклеотиды качеством менее 20
и удалены чтения длиной меньше 50
fastqc trim_chr10.fastqВыдает информацию о качестве прочтений trim_chr10.fastq



Рис. 1 Качество прочтения ридов до очистки


Рис. 2 Качество прочтения после очистки

До очистки файл содержал 10666 прочтений
После очистки файл содержал 10526 прочтений

Убрав нуклеотиды, качество прочтения которых меньше 20, среднее качество естественным образом выросло.
Кроме того, уменьшился и доверительный интервал, который теперь почти полностью лежит в зелёной зоне.
Также были удалены очень короткие риды, которые больше подвержены загрязнениям и имеют малую информативность.

Задание 2

КомандаФункция
hisat2-build chr10.fasta his_chr10Выдаёт индексированную референсную последовательность
в формате fasta
hisat2 -x his_chr10 -U trimm_chr10.fastq
--no-spliced-alignment --no-softclip > align.sam
Выравнивает прочтения
с референсной последовательностью
samtools view align.sam -b -o align.bamпереводит файл из формата sam в формат bam
samtools sort align.bam -T file.txt -o
alignsort.bam
Сортирует выравнивание чтений
samtools idxstats alignsort.bam > resut.txtзаписывает число закартированных чтений

В результате было откартировано 10395 чтений. 131 чтение не откартировалось

Задание 3

Поиск SNP и инделей


КомандаФункция
samtools mpileup -uf chr10.fasta sort.bam > snp.bcfСоздаёт файл с полиморфизмами
bcftools call -cv snp.bcf -o snp.vcfСоздаёт файл описания различий рефересной
последовательности и данных прочтений

Было найдено 66 полиморфизмов. Представлнные ниже мутации являются достоверными, так
как подтверждаются солидным числом прочтений, и качество прочтений также неплохое.
КоординатаТип мутацииНуклеотид референсаНуклеотид чтенийГлубина прочтенияКачество прочтения
5781628ЗаменаTG21117.008
5781969ЗаменаAT18225.009
5784151ЗаменаAG83225.009

Аннотация SNP

Подготовка данных к аннотации была проведена следующей командой:
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp.vcf -o chr10.avinput

Далее был проведён поиск SNP в 5 базах данных:
База данныхКоманда
Refgene perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr10_refg -build hg19 chr10.avinput /nfs/srv/databases/annovar/humandb/
dbsnp perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype snp138 -out chr10.snp -build hg19 chr10.avinput /nfs/srv/databases/annovar/humandb/
1000 genomesperl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -out chr10_1000g -buildver hg19 chr10.avinput /nfs/srv/databases/annovar/humandb/
GWAS perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -out chr10_gwas -buildver hg19 chr10.avinput /nfs/srv/databases/annovar/humandb/
Clinvar perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -out chr10_clinvar -buildver hg19 chr10.avinput /nfs/srv/databases/annovar/humandb/

Из 66 найденных полиморфизмов 9 не имеют описания. Результаты поиска по базам описаны в таблице
В базе Clinvar не было найдено ни одного snp, что означает отсутствие доказанно вредоносных мутаций.
Refgene
45 замен оказались в интронах, в экзонах 10, в UTR3 - 2.
dbsnp
Было найдено 57 аннотированных snp. Ещё 9 не были определены.
1000 genomes
Частота мутаций была посчитана для 54 snp. Минимальная частота - 0.000798722, максимальная - 0.997604, средняя - 0.61, медиана - 0.72.
GWAS
Было найдено 3 замены, ассоциированные с различными болезнями (остеосаркома, ревматоидный артрит, витилиго).
Clinvar
В базе Clinvar не было найдено ни одного snp, что означает отсутствие доказанно вредоносных мутаций.


© Максим Григорьян, 2016