Chernykh, pr11

На главную На страницу третьего семестра

— — — — — — — —

Номер хромосомы

Я работал с 22 хромосомой.

Использованные команды

cp chr22.fasta ../ivan.chernykh/
hisat2-build chr22.fasta chr22
cp chr22.fastq /nfs/srv/databases/ngs/ivan.chernykh/
fastqc chr22.fastq
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr22.fastq chr22_trim.fastq TRAILING:20 MINLEN:50
fastqc chr22_trim.fastq
hisat2 -x chr22 -U chr22_trim.fastq --no-spliced-alignment --no-softclip -S align.sam
samtools view align.sam -b -o align.bam
samtools sort align.bam align_sort
samtools index align_sort.bam
samtools mpileup -u -f chr22.fasta -g -o polymorph_22.bcf align_sort.bam
bcftools call -cv polymorph_22.bcf -o polymorph_22.vcf
vcftools --vcf polymorph_22.vcf --remove-indels --recode --out polymorph_22_wi
convert2annovar.pl -format vcf4 polymorph_22_wi.recode.vcf -outfile polymorph_22_wi.avinput
annotate_variation.pl -out refgene_22 -build hg19 polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
annotate_variation.pl -filter -out 1000genomes_22 -buildver hg19 -dbtype 1000g2014oct_all polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
annotate_variation.pl -regionanno -out gwas_22 -build hg19 -dbtype gwasCatalog polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/
annotate_variation.pl -filter -out clinvar_22 -buildver hg19 -dbtype clinvar_20140211 polymorph_22_wi.avinput /nfs/srv/databases/annovar/humandb.old/

Исходное количество чтений

11427

Картинка из результатов FastQC с оценкой качества чтений

Количество оставшихся после триммирования чтений. Оправданность триммирования. Картинка качества чтений после триммирования

После триммирования осталось 11091 (97,06%) чтений. Сравнивания две картинки, можно убедиться, что качество чтений возросло, так что процедура была оправданной.

Процент картированных чтений на геном?

Выдача программы:

11091 reads; of these:
  11091 (100.00%) were unpaired; of these:
    53 (0.48%) aligned 0 times
    11026 (99.41%) aligned exactly 1 time
    12 (0.11%) aligned >1 times
99.52% overall alignment rate

Так что итого было картированно 99.52% чтений.

Качество картирования

99.52% - это очень высокий процент, так что можно говорить о хорошем качестве картирования.

Описание трех полиморфизмов из .vcf файла

**Описание полиморфизмов**
Координата	Тип	Референс	Чтения	Глубина покрытия	Качество чтений
26160976	Замена	G	T	2	33.7663
26159129	Вставка	CTTT	CTTTTT	10	176.468
26166011	Замена	C	A	57	221.999

Количество полученных SNP и инделей

Суммарное количество инделей – 10, SNP – 215.

Покрытие и качество найденных полиморфизмов

Средняя глубина покрытия – 9,995, медиана – 2,000. Среднее качество – 66,497, медиана – 13,802. Значения глубины покрытия достаточно низкие, как и медиана качества не очень высокая, так что в целом результат эксперементальной работы не очень хороший.

Категории деления SNP базой данных RefSeq в annovar. Количество snp попавших в каждую группу

**Распределение по категориям**
Название категории	Количество
Exonic	26
Intronic	182
ncRNA_exonic	1
ncRNA_intronic	6

Гены, в которые попали SNP

MYO18B, TTC28, TTC28-AS1, APOL1.

Нуклеотидные и аминокислотные замены, к которым привели SNP

142 синонимические замены и 73 – несинонимические.

Количество SNP в RS

175

Частота найденных SNP

Средняя частота - 37,541%

Клиническая аннотация SNP

Данная аннотация была сделана на основании базы данных GWAS. Как видно из картинки, SNP могут быть связаны с ожирением, гломерулосклерозом и, видимо, как-то влиять на математические способности детей с дислексией (очень странное заключение какое-то, однако выяснить что-либо подробнее не удалось).

Clinvar

В данной базе никаких SNP найдено не было.

Практикум №11