О себе | I семестр | II семестр | Сайт ФББ



Ресеквенирование. Поиск полиморфизмов у человека.

1. Анализ и очистка чтений.

КомандаЧто делаетВходной файлВыходной файл
fastqc chr4.fastqКонтроль качества чтенийchr4.fastqchr4_fastqc.zip
chr4_fastqc.html
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr4.fastq out0.fastq TRAILING:20 Удаление нуклеотидов плохого качества (Q<20) с конца chr4.fastqout0.fastq
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 out0.fastq out.fastq MINLEN:50 Удаление чтений длиной меньше 50 нуклеотидовout0.fastqout.fastq
fastqc out.fastq Контроль качества чтенийout.fastq out_fastqc.zip
out_fastqc.html

Per base sequence quality



Количество ридов уменьшилось с 5810 до 5715. Отсеялись чтения короче 50 нуклеотидов и чтения плохого качества (Q<20, где Q = 10*lg(p), Q - качество прочтения, p - вероятность ошибки в данном нуклеотиде)

2. Картирование чтений

КомандаЧто делаетВходной файлВыходной файл
hisat2-build chr4.fasta chr4 Индексирует референсную последовательность chr4.fasta chr4.1.ht2
chr4.2.ht2
chr4.3.ht2
chr4.4.ht2
chr4.7.ht2
chr4.8.ht2
hisat2 -x chr4 -U out.fastq -S sam1.sam --no-spliced-alignment --no-softclip Построение выравнивания прочтений и референса out.fastq sam1.sam
samtools view sam1.sam -b >> bam1.bam Перевод выравнивания чтений с референсом в бинарный формат .bam sam1.sam bam1.bam
samtools sort bam1.bam bam2 Сортировка выравнивания чтений с референсом по координате начала чтения в референсе bam1.bam bam2.bam
samtools index bam2.bam Индексация отсортированного .bam файла bam2.bam bam2.bam.bai

Выдача программы hisat2:

5715 reads; of these:
  5715 (100.00%) were unpaired; of these:
    19 (0.33%) aligned 0 times
    5695 (99.65%) aligned exactly 1 time
    1 (0.02%) aligned >1 times
99.67% overall alignment rate

На геном откартировано 5715 ридов, все они непарные.
5695 из них выровнены ровно 1 раз, 19 - ни одного, 1 - больше одного раза.

3. Анализ SNP

КомандаЧто делаетВходной файлВыходной файл
samtools mpileup -uf chr4.fasta -g -o snp.bcf bam2.bam Создание файла с полиморфизмами chr4.fasta
bam2.bam
snp.bcf
bcftools call -cv -o snp2.vcf snp.bcf Файл со списком отличий между референсом и чтениями snp.bcf snp2.vcf
convert2annovar.pl -format vcf4 snp2.vcf > chr4.avinput Файл для программы annovar snp2.vcf chr4.avinput
annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 chr4.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по Dbsnp
annotate_variation.pl -out chr4_refgene -build hg19 chr4.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по Refgene
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000g chr4.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по 1000 Genomes
annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog chr4.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по GWAS
annotate_variation.pl chr4.avinput -filter -dbtype clinvar_20140211 -buildver hg19 -out clinvar /nfs/srv/databases/annovar/humandb.old/ Аннотация по ClinVar


Примеры полиморфизмов
КоординатаТип полиморфизмаРеференс РидыГлубина покрытияКачество чтения Q
chr4:68458937 Замена G C 87 225.009
chr4:68468036 INDEL c cAT 1 22.4955
chr4:187165891 INDEL gttttt gtttt 2 3.66479
45 SNP (37 transitions and 8 transversions) и 4 инделя.

1. Dbsnp
43 из 49 полиморфизмов имеют rs, 6 - не имеют.

2. Refgene
Гены, в которые попали snp:
KLKB1 - 18 snp (kallikrein B1)
MEPE - 16 snp (matrix extracellular phosphoglycoprotein)
STAP1 - 12 snp (signal transducing adaptor family member 1)
KIAA0922 - 3 snp (Transmembrane protein 131-like)

Делит snp по категориям:
intronic - 39 snp
intergenic - 3 snp
exonic - 3 snp
downstream - 2 snp (на расстоянии 1kb от конца транскриптициив сторону 3' конца)
UTR3 - 1 snp (snp в 3'-нетранслируемой области)
3. 1000 Genomes
В базе данных есть информация о частотах встречаемости 40 из 49 snp. Максимальная найденная частота = 0.91853, минимальная - 0.00379393.

4. GWAS
Указаны заболевания и состояня, сопутствующие 4-ём snp, а именно: болезнь Паркинсона, фактор риска кардиоваскулярной болезни, уровень метаболизма, черты, связанные с ожирением.

5. ClinVar
1 патогенная snp, вызывающая prekallikrein deficiency - специфическое состояние крови, обычно не вызывающее проблем со здоровьем.




© Антоненкова Юлия, 2017