Практикум №11

На главную На страницу третьего семестра

— — — — — — — —

Номер хромосомы

Я работал с 22 хромосомой.

Использованные команды

  1. cp chr22.fasta ../ivan.chernykh/
  2. hisat2-build chr22.fasta chr22
  3. cp chr22.fastq /nfs/srv/databases/ngs/ivan.chernykh/
  4. fastqc chr22.fastq
  5. java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr22.fastq chr22_trim.fastq TRAILING:20 MINLEN:50
  6. fastqc chr22_trim.fastq
  7. hisat2 -x chr22 -U chr22_trim.fastq --no-spliced-alignment --no-softclip -S align.sam
  8. samtools view align.sam -b -o align.bam
  9. samtools sort align.bam align_sort
  10. samtools index align_sort.bam
  11. samtools mpileup -u -f chr22.fasta -g -o polymorph_22.bcf align_sort.bam
  12. bcftools call -cv polymorph_22.bcf -o polymorph_22.vcf
  13. vcftools --vcf polymorph_22.vcf --remove-indels --recode --out polymorph_22_wi
  14. convert2annovar.pl -format vcf4 polymorph_22_wi.recode.vcf -outfile polymorph_22_wi.avinput
  15. annotate_variation.pl -out refgene_22 -build hg19 polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
  16. annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
  17. annotate_variation.pl -filter -out 1000genomes_22 -buildver hg19 -dbtype 1000g2014oct_all polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
  18. annotate_variation.pl -regionanno -out gwas_22 -build hg19 -dbtype gwasCatalog polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
  19. annotate_variation.pl -filter -out clinvar_22 -buildver hg19 -dbtype clinvar_20140211 polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/

Исходное количество чтений

11427

Картинка из результатов FastQC с оценкой качества чтений

Количество оставшихся после триммирования чтений. Оправданность триммирования. Картинка качества чтений после триммирования

После триммирования осталось 11091 (97,06%) чтений. Сравнивания две картинки, можно убедиться, что качество чтений возросло, так что процедура была оправданной.

Процент картированных чтений на геном?

Выдача программы:

11091 reads; of these:
  11091 (100.00%) were unpaired; of these:
    53 (0.48%) aligned 0 times
    11026 (99.41%) aligned exactly 1 time
    12 (0.11%) aligned >1 times
99.52% overall alignment rate
Так что итого было картированно 99.52% чтений.

Качество картирования

99.52% - это очень высокий процент, так что можно говорить о хорошем качестве картирования.

Описание трех полиморфизмов из .vcf файла

Описание полиморфизмов
Координата Тип Референс Чтения Глубина покрытия Качество чтений
26160976 Замена G T 2 33.7663
26159129 Вставка CTTT CTTTTT 10 176.468
26166011 Замена C A 57 221.999

Количество полученных SNP и инделей

Суммарное количество инделей – 10, SNP – 215.

Покрытие и качество найденных полиморфизмов

Средняя глубина покрытия – 9,995, медиана – 2,000. Среднее качество – 66,497, медиана – 13,802. Значения глубины покрытия достаточно низкие, как и медиана качества не очень высокая, так что в целом результат эксперементальной работы не очень хороший.

Категории деления SNP базой данных RefSeq в annovar. Количество snp попавших в каждую группу

Распределение по категориям
Название категории Количество
Exonic 26
Intronic 182
ncRNA_exonic 1
ncRNA_intronic 6

Гены, в которые попали SNP

MYO18B, TTC28, TTC28-AS1, APOL1.

Нуклеотидные и аминокислотные замены, к которым привели SNP

142 синонимические замены и 73 – несинонимические.

Количество SNP в RS

175

Частота найденных SNP

Средняя частота - 37,541%

Клиническая аннотация SNP

Данная аннотация была сделана на основании базы данных GWAS. Как видно из картинки, SNP могут быть связаны с ожирением, гломерулосклерозом и, видимо, как-то влиять на математические способности детей с дислексией (очень странное заключение какое-то, однако выяснить что-либо подробнее не удалось).

Clinvar

В данной базе никаких SNP найдено не было.