Ресеквенирование. Поиск полиморфизмов у человека.

Часть I. Подготовка чтений.

Команды

КомандаФункция
fastqc chr22.fastq
fastqc chr22good.fastq
Выдает информацию о качестве прочтений (о Quality Score сигналов)
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr20.fastq chr22good.fastq TRAILING:20 MINLEN:50Выдает файл chr22good.fastq, где отрезаны с концов прочтений нуклеотиды качеством < 20 и удалены чтения длиной < 50

Изображения 'Per base sequence quality'
До чисткиПосле чистки

До чистки число чтений было 11427, после удаления всех нуклеотидов качеством ниже 20 и чтений длиной меньше 50 число чтений стало 11091. Из сравнения изображений видно, что теперь почти все значения лежат в зелёной зоне графика, что означает, что среднее качество ридов возросло, также длина усов заметно сократилась.

Часть II. Картирование чтений.

Команды

КомандаФункция
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5Добавляет пакет программ в PATH (они становятся доступными для вызова через командную строку)
hisat2-build chr22.fasta chr22Индексирует референсную последовательность
hisat2 --no-spliced-alignment --no-softclip -x chr22 -U chr22good.fastq -S align.samСтроит выравнивание референсной последовательности и прочтений и сохраняет результат в файл align.sam
(опция '--no-spliced-alignment' запрещает разбивать чтения и выравнивать их отдельными участками, опция '--no-softclip' запрещает подрезать чтения с концов)
samtools view align.sam -b -o align.bamПереводит выравнивание в бинарный формат
samtools sort align.bam -T file.txt -o sort_align.bamСортирует выравнивание чтений с референсом по координате в референсе начала чтения
samtools index sort_align.bamИндексирует отсортированный .bam файл
samtools stats sort_align.bam > out.txtВыдаёт файл со статистикой

Из файла со статитикой видно, что 11061 чтений было откартировано на хромасому, 54 - некартировано.

Часть III. Анализ SNP.

Команды

КомандаФункция
samtools mpileup -uf chr5.fasta sort_align.bam -o snp.bcfСоздает файл с полиморфизмами в формате .bcf
bcftools call -cv snp.bcf -o snp.vcfСоздает файл со списком отличий между референсом и чтениями в формате .vcf
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 /nfs/srv/databases/ngs/anshkarina/pr11/snp1.vcf > /nfs/srv/databases/ngs/anshkarina/pr11/snp.annovarСоздает файл, необходимый для работы annovar (индели были удалены вручную)
perl /nfs/srv/databases/annovar/annotate_variation.pl -out res.ref -build hg19 snp.annov /nfs/srv/databases/annovar/humandb/Аннотирует полученные snp по базе данных refgene
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out res.snp -build hg19 -dbtype snp138 snp.annov /nfs/srv/databases/annovar/humandb/Аннотирует полученные snp по базе данных dbsnp
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -out res.gen -buildver hg19 snp.annov /nfs/srv/databases/annovar/humandb/Аннотирует полученные snp по базе данных 1000 genomes
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -out res.gwas -build hg19 snp.annov /nfs/srv/databases/annovar/humandb/Аннотирует полученные snp по базе данных Gwas
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out res.clin -dbtype clinvar_20150629 -buildver hg19 snp.annov /nfs/srv/databases/annovar/humandb/Аннотирует полученные snp по базе данных Clinvar

Найденные SNP

КоординатаРеференсная последовательностьЧтенияТип полиморфизмаГлубина покрытияКачество чтений
26336259CTGCTGATGВставка нуклеотидов122.4955
26343593AGЗамена нуклеотида47225.009
28656299CTATATCTATДелеция нуклеотидов113.6619
Всего 225 SNP, из них 10 инделей

Аннотация по RefGene

ЗонаОписаниеЧисло SNP
intronicSNP в интронах183
exonicSNP в экзонах25
ncRNASNP в транскрибируемой РНК, не имеющей аннотированного кодирующего участка7

Аннотация по dbSNP

В файл res.snp.hg19_snp138_dropped были записанны аннотированные SNP. 175 SNP имеют rs, 40 - не имеют.

Аннотация по Clinvar

В Clinvar аннотировано 2 SNP, которые были перечислены в файле res.clin.hg19_clinvar_20150629_dropped. В файле res.clin.hg19_clinvar_20150629_filtered были перечислены 213 SNP без аннотации

Аннотация по 1000Genomes

С помощью базы 1000Genomes можно посчитать частоту встречаемости SNP. Максимальная частота составила 0.9998, а минимальная - 0.00319489.

Аннотация по GWAS

С помощью базы GWAS можно понять с чем из описанного в литературе, ассоциированы SNP. Но так как полученный файл пустой, можно сделать вывод, что данные SNP не дают известных фентипических изменений.


©Шкарина Анастасия Николаевна 2016