Полиморфизмы

Номер хромосомы: 14
Все использованные команды:

hisat2-build /nfs/srv/databases/ngs/Human/chr14.fasta indexed индексирование референсной последовательности
fastqc /nfs/srv/databases/ngs/Human/reads/chr14.fastq контроль качества чтений до тримминга
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 /nfs/srv/databases/ngs/Human/reads/chr14.fastq chr14_trimmed.fastq TRAILING:20 MINLEN:50 тримминг, параметр TRAILING - удаление с конца нуклеотиды с качеством менее 20, MINLENGTH - минимальная длина чтений - 50 нуклеотидов
fastqc chr14_trimmed.fastq контроль качества чтений после тримминга
hisat2 -x indexed -U chr14_trimmed.fastq -S chr14_aligntoref.sam --no-softclip --no-spliced-alignment индексирование хромосомы, не допускаются инделы (--no-spliced-alignment) и частичные несовпадения (--no-softclip)
samtools view -b chr14_aligntoref.sam -o chr14_aligntoref.bam sam в bam
samtools sort chr14_aligntoref.bam chr14_aligntoref_sorted сортировка bam-файла по координате
samtools index chr14_aligntoref_sorted.bam индексирование отсортированного bam-файла
samtools flagstat chr14_aligntoref_sorted.bam подсчёт статистики
samtools mpileup -uf chr14.fasta -o chr14_polym.bcf chr14_aligntoref_sorted.bam создание файла с полиморфизмами в bcf формате. документация samtools угрожает перестать поддерживать данную опцию и предлагает файлы bcf генерировать при помощи bcftools mpileup, а samtools mpileup использовать для получения файлов pileup формата.
bcftools call -cv -o chr14_polym.vcf chr14_polym.bcf изменяем формат, вызываем команду call по-старому при помощи -c и просим показать только изменившиеся позиции (-v)
convert2annovar.pl -format vcf4 chr14_polym.vcf -outfile chr14_polym.avinput конвертация в формат AVInput
annotate_variation.pl -out ann_chr14_refgene -build hg19 -dbtype refGene chr14_polym.avinput /nfs/srv/databases/annovar/humandb аннотация refgene
annotate_variation.pl -filter -out ann_chr14_dbsnp -build hg19 -dbtype snp138 chr14_polym.avinput /nfs/srv/databases/annovar/humandb.old/ аннотация dbsnp
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out ann_chr14_1000g chr14_polym.avinput /nfs/srv/databases/annovar/humandb.old/ аннотация 1000 genomes
annotate_variation.pl -regionanno -build hg19 -out ann_chr14_gwas -dbtype gwasCatalog chr14_polymorph.avinput /nfs/srv/databases/annovar/humandb.old/ аннотация gwas
annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 -out ann_chr14_clinvar chr14_polym.avinput /nfs/srv/databases/annovar/humandb.old аннотация clinvar


Сколько исходно чтений Вы получили? 8696

Приведите картинку из результатов FastQC с оценкой качества Ваших чтений
im
Рис. 1.

качество прочтений до тримминга


im
Рис. 2.

качество прочтений до тримминга


Доп: Приведите и объясните еще любую картинку из результатов FastQC, используя пояснения в руководстве к программе.
im
Рис. 1.

уровень дупликации последовательностей



Дупликаты на уровне сырых прочтений - идентичные последовательности. Красная линия: распределение уровней дедупликации полного набора последовательностей. Синяя линия: последовательности дедуплицируются, то есть по питоновской аналогии список превращается в множество, а затем считается отношение количества последовательностей из дедуплицированного набора к количеству последовательностей до дедупликации. Надеюсь, я правильно поняла.
Сколько чтений осталось после процедуры триммирования? Оправдано ли триммирование в случае Ваших чтений или можно было обойтись без этого? Аргументируйте. Приведите картинку качества чтений(FastQC) после триммирования.
После триммирования из 8696 прочтений выжило 8562 (98,46%), было отброшено 134 (1,54%). Если посмотреть на анализ качества до и после триммирования, можно увидеть, что отрезались как раз нуклеотиды с плохим качеством, которые могли бы нам помешать корректно картировать риды.
Сколько чтений (%) картировано на геном?
99.75%
Сделайте вывод о качестве картирования.
Картирование очень хорошее, так как с такими строгими параметрами только 21 чтение из 8562 не картировалось ни разу и только 2 чтения были картированы более одного раза.
Описание трех полиморфизмов из .vcf файла
Хромосома 14
Позиция 81448951: GAAAAAAAAAA => GAAAAAAAAAAAA,GAAAAAAAAAAA,GAAAA AAAAAAAAA (инсерция), глубина=55, качество=84.4632
Позиция 81467864: CAT => C (делеция), глубина=16, качество=217.468
Позиция 81448282: C => G (замена), глубина=5, качество=91.0145
Сколько snp и сколько инделей Вы получили?
87 SNPs (63 транзиций и 24 трансверсии) и 5 инделей
Хорошее ли покрытие и качество у найденных полиморфизмов (приведите распределение)?
im

im

Глубина в основном довольно низкая. Качество варьирует.
На какие категории делит snp база данных refseq в annovar? Сколько snp у Вас попало в каждую группу?
exonic(3)/intronic(85)/splicing(1)/UTR3(1)/intergenic(0)/ncRNA(0)/UTR5(0)/upstream(0)/downstream(0)
В какие гены попали Ваши snp? RNASE9, TSHR, PPP2R5C. Иллюстрация для TSHR из IGV:
im

К каким нуклеотидным и аминокислотным заменам привели snp?
RNASE9: A => G (T => C), TSHR: T => C (T => C), PPP2R5C: G => C (A => P).
Сколько snp имеет rs?
83 из 90, согласно dbsnp
Что Вы можете сказать о частоте найденных snp?
0.255471 - средняя частота, рассчитаная по выдаче 1000genomes. Если minor allele frequency (MAF) < 0.01%, то аллель считается редким. Как мы видим, в основном полученная выборка состоит из довольно частых SNP.
Что Вы можете сказать о клинической аннотации snp?
По аннотации gwas, три SNP имеют клиническое значение. Аутизм (CINP-участник рекликации ДНК, регулирует сигнализацию о прохождении контрольных точек клеточного цикла), рак простаты и (NDRG2-регулятор Wnt пути, в норме tumor suppressor), Базедова болезнь.
clinvar ничего не нашёл