На главную На страницу третьего семестра
— — — — — — — —
Номер хромосомы
Я работал с 22 хромосомой.
Использованные команды
- cp chr22.fasta ../ivan.chernykh/
- hisat2-build chr22.fasta chr22
- cp chr22.fastq /nfs/srv/databases/ngs/ivan.chernykh/
- fastqc chr22.fastq
- java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr22.fastq chr22_trim.fastq TRAILING:20 MINLEN:50
- fastqc chr22_trim.fastq
- hisat2 -x chr22 -U chr22_trim.fastq --no-spliced-alignment --no-softclip -S align.sam
- samtools view align.sam -b -o align.bam
- samtools sort align.bam align_sort
- samtools index align_sort.bam
- samtools mpileup -u -f chr22.fasta -g -o polymorph_22.bcf align_sort.bam
- bcftools call -cv polymorph_22.bcf -o polymorph_22.vcf
- vcftools --vcf polymorph_22.vcf --remove-indels --recode --out polymorph_22_wi
- convert2annovar.pl -format vcf4 polymorph_22_wi.recode.vcf -outfile polymorph_22_wi.avinput
- annotate_variation.pl -out refgene_22 -build hg19 polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
- annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
- annotate_variation.pl -filter -out 1000genomes_22 -buildver hg19 -dbtype 1000g2014oct_all polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
- annotate_variation.pl -regionanno -out gwas_22 -build hg19 -dbtype gwasCatalog polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
- annotate_variation.pl -filter -out clinvar_22 -buildver hg19 -dbtype clinvar_20140211 polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
Исходное количество чтений
11427Картинка из результатов FastQC с оценкой качества чтений
Количество оставшихся после триммирования чтений. Оправданность триммирования. Картинка качества чтений после триммирования
После триммирования осталось 11091 (97,06%) чтений. Сравнивания две картинки, можно убедиться, что качество чтений возросло, так что процедура была оправданной.
Процент картированных чтений на геном?
Выдача программы:
11091 reads; of these: 11091 (100.00%) were unpaired; of these: 53 (0.48%) aligned 0 times 11026 (99.41%) aligned exactly 1 time 12 (0.11%) aligned >1 times 99.52% overall alignment rateТак что итого было картированно 99.52% чтений.
Качество картирования
99.52% - это очень высокий процент, так что можно говорить о хорошем качестве картирования.
Описание трех полиморфизмов из .vcf файла
Координата | Тип | Референс | Чтения | Глубина покрытия | Качество чтений |
---|---|---|---|---|---|
26160976 | Замена | G | T | 2 | 33.7663 |
26159129 | Вставка | CTTT | CTTTTT | 10 | 176.468 |
26166011 | Замена | C | A | 57 | 221.999 |
Количество полученных SNP и инделей
Суммарное количество инделей – 10, SNP – 215.
Покрытие и качество найденных полиморфизмов
Средняя глубина покрытия – 9,995, медиана – 2,000. Среднее качество – 66,497, медиана – 13,802. Значения глубины покрытия достаточно низкие, как и медиана качества не очень высокая, так что в целом результат эксперементальной работы не очень хороший.
Категории деления SNP базой данных RefSeq в annovar. Количество snp попавших в каждую группу
Название категории | Количество |
---|---|
Exonic | 26 |
Intronic | 182 |
ncRNA_exonic | 1 |
ncRNA_intronic | 6 |
Гены, в которые попали SNP
MYO18B, TTC28, TTC28-AS1, APOL1.
Нуклеотидные и аминокислотные замены, к которым привели SNP
142 синонимические замены и 73 – несинонимические.
Количество SNP в RS
175
Частота найденных SNP
Средняя частота - 37,541%
Клиническая аннотация SNP
Данная аннотация была сделана на основании базы данных GWAS. Как видно из картинки, SNP могут быть связаны с ожирением, гломерулосклерозом и, видимо, как-то влиять на математические способности детей с дислексией (очень странное заключение какое-то, однако выяснить что-либо подробнее не удалось).
Clinvar
В данной базе никаких SNP найдено не было.