Командная строка | Функция |
cp Human/chr20.fasta crasyempress3090/chr20.fasta |
Копиравание chr20.fasta |
hisat2-build chr20.fasta task2.fasta |
Индексация референса |
cp ../Human/reads/chr20.fastq chr20.fastq |
Копирование ридов |
fastqc chr20.fastq |
Обработка FastQC |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr20.fastq chr20_trim.fastq TRAILING:20 MINLEN:50 |
Обрезание концов |
hisat2 -x task2.fasta -U chr20_trim.fastq -S chr20_aligntoref.sam --no-softclip --no-spliced-alignment |
Картирование чтений из fastq (по индексированной последовательности) |
samtools view -b chr20_aligntoref.sam -o chr20_align.bam |
Конвертнация в .bam |
samtools sort chr20_align.bam chr20_align_sorted |
Сортировка по координате в начале чтения |
samtools index chr20_align_sorted.bam |
Индексация отсортированного .bam |
samtools mpileup -u -f chr20.fasta -o chr20_poly.bcf chr16_align_sorted.bam |
Создание файла с полиморфизмами |
bcftools call -cv -o chr20_poly.vcf chr20_poly.bcf |
Создание файла со списком отличий между референсом и чтениями в формате .vcf |
vcftools --vcf chr20_poly.vcf --remove-indels --recode --out chr20_poly_niind |
Удаление инделей |
convert2annovar.pl -format vcf4 chr20_poly_niind.recode.vcf -outfile chr20_poly.avinput |
Конвертнация в .vcf4 (для annotate_variation.pl) |
annotate_variation.pl -out chr20_annotate -build hg19 -dbtype refGene chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотация по refgene |
annotate_variation.pl -filter -out chr20_annotate_dbsnp -build hg19 -dbtype snp138 chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотацтия по dbsnp |
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out chr20_1000g chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотацтия по 1000 genomes |
annotate_variation.pl -regionanno -build hg19 -out chr20_gwas -dbtype gwasCatalog chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотацтия по GWAS |
annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 -out chr20_clinvar chr20_poly.avinput /nfs/srv/databases/annovar/humandb.old/ |
Аннотацтия по Clinvar |
Всего было 4661 чтений, их качество (из выдачи fastqc) показано на 1 картинке. После очистки чтений trimmomatic - убраны нуклеотиды с качеством менее 20, минимальная длина для чтений после этой обработки 50 - осталось 4472 (95,95%), были отброшены 189 (4,05%). Судя по результатам, триммирование оправдано - отброшены немного чтений, но среднее качество по последовательности, особенно в конце, значительно выросло.
Результаты:Input Reads: 4661 Surviving: 4472 (95,95%) Dropped: 189 (4,05%)
99.60% чтений были картированы на хромосому, качество можно считать довольно высоким
4472 reads; of these: 4472 (100.00%) were unpaired; of these: 17 (0.38%) aligned 0 times 4454 (99.60%) aligned exactly 1 time 1 (0.02%) aligned >1 times 99.62% overall alignment rate
Все нуклеотидные (с.) и аминокислотные (p.) замены перечислены в файле chr20_annotate_exonic_variant_function.
Всего 42 полиморфизма, из них 42 SNP. Большинство, имеют очень низкое покрытие (1-2 чтения) и качество - возможно, ошибки секвенирования. В таблице показал 2 полиморфизма с плохим покрытием и один с хорошим.
Позиция | Тип | Референс | Чтение | Глубина покрытия | Качество чтений |
33903158 | Замена | G | A | 2 | 3.01394 |
34010241 | Замена | A | G | 1 | 3.01618 |
34022387 | Замена | A | C | 18 | 110.008 |
База данных refseq в annovar распределяет SNP по их расположению в последовательности.
Тип SNP | Количество SNP |
intronic | 28 |
exonic | 8 |
intergenic | 3 |
UTR5 | 1 |
upstream | 2 |
База данных refseq даёт о полиморфизмах следующую информацию: в координатах какого гена (или координаты области полиморфизма относительно соседних генов) находится полиморфизм, в интронной, экзонной, нетранслируемой или междугенной области. Из 42 полиморфизмов 15 находятся в интронных областях гена UQCC1 (Ubiquinol-Cytochrome C Reductase Complex Assembly Factor 1), 3 между генами UQCC1 и GDF5, 1 в экзоне GDF5 (Growth differentiation factor 5), по одному в UTR5 и upstream областях того же гена, 3 в экзонах гена SPATA2 (Spermatogenesis Associated 2), 1 в upstream и 2 в интронах того же гена, 4 в экзонах ZBP1 (Z-DNA-binding protein) и 11 в его интронах.
Из экзонных замен 4 являются синонимичными - 3 в гене SPATA2 (exon3:c.C1389T:p.C463C; exon3:c.C1134T:p.S378S; exon2:c.T201C:p.Y67Y), 1 в гене ZBP1 (exon7:c.C1086T:p.D362D).
Несинонимичные замены: 1 в GDF5 (exon2:c.T826G:p.S276A), 3 в ZBP1 (exon6:c.A770G:p.Q257R; exon4:c.G460C:p.D154H; exon3:c.G262A:p.E88K)
Из 42 полиморфизмов 32 имеют reference SNP ID number (rs).
12 полиморфизмов встречается довольно часто (диапазон 0.35-0.6), 3 реже (0.13-0.19) 13 очень редко (менее 0.1), есть несколько очень распространённых (0.695, 0.813 и даже 0.996).
Cогласно базе gwas, два SNP ассоциированы с ростом и псориазом, третий - с атрофией гиппокампа.
gwasCatalog Name=Height chr20 34025756 34025756 A G hom 221.999 . gwasCatalog Name=Psoriasis chr20 48522330 48522330 G A het 196.009 . gwasCatalog Name=Hippocampal atrophy chr20 56190634 56190634 C T het 225.009 .
В clinvar есть запись только об одном из найденных полиморфизмов - в гене GDF5, он ведёт к повышенному риску возникновения остеоартроза бедренного сустава (CLNACC=RCV000008898.2).