Для практикума использовались прочтения 13-ой хромосомы. Сначала качество ридов было визуализированно с помощью программы FastQC, далее с конца каждого чтения были удалены нуклеотиды с качеством <20 и оставлены чтения не короче 50-ти нуклеотидов. Затем качество ридов было повторно визуализировано.
Команда |
Что делает |
fastqc chr13.fastq | Визуализирует качество ридов 13-ой хромосомы. |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr13.fastq chr13_fixed.fastq TRAILING:20 MINLEN:50 | Удаляет с конца каждого чтения нуклеотиды с качеством ниже 20; оставляет чтения не короче 50-ти нуклеотидов |
fastqc chr13_fixed.fastq | Визуализирует качество улучшенных ридов 13-ой хромосомы |
После обработки с помощью trimmomatic число последовательностей уменьшилось с 12155 до 11933. С концов чтений были удалены нуклеотиды с качеством <20, после чего были отброшены чтения с длиной <50. График, а именно среднее качество чтений, стал более пологим из-за уменьшения длины больший ридов за счёт удаления нуклеотидов плохого качества.
Команда |
Что делает |
hisat2-build chr13.fasta chr13 | Индексирует файл с референсной последовательностью |
hisat2 -x chr13 -U chr13_fixed.fastq --no-spliced-alignment --no-softclip > align1.sam | Создание выравнивания референсной последовательности и прочтений с картированием без подрезания чтений и запретом на картирование с разрывом |
samtools view align1.sam -bo align1.bam | Перевод в бинарный формат .bam |
samtools sort align1.bam -T tmp_sorter.txt -o align1_sorted.bam | Сортировка бинарного выравнивания по возрастанию |
samtools index align1_sorted.bam | Индексирование отсортированного выравнивания |
Вывод говорит о том, что из 11.933 чтений 11.112 однозначно откартировались на хромосому, то есть были мапированы единожды, 704 чтения - неоднозначно, то есть были мапированы более одного раза, 117 чтений не откартировались вообще.
Команда |
Что делает |
samtools mpileup -uf chr13.fasta align1_sorted.bam > snp1.bcf | Создание файла с полиморфизмами |
bcftools call -cv snp1.bcf -o snp1.vcf | Создаёт файл со списком отличий между референсом и чтениями |
Координата |
Тип полиморфизма |
Референс |
Чтения |
Глубина покрытия |
Качество чтения |
25527657 | Делеция | GAAAA | GAAA | 44 | 73,4665 |
25527364 | Транзиция | G | A | 225 | 225,009 |
25528225 | Трансверсия | G | C | 68 | 225,009 |
Всего в .vcf файле 163 полиморфизма являются SNP, а 14 - инделями. SNP в свою очередь делятся на транзиции - замены пуриновых на пуриновые и пиримидиновых на пиримидиновые, и трансверсии - замены пуриновых на пиримидиновые и наоборот. Замен первого типа найдено 115, а второго - 48.
Качество чтений и их глубина в рассмотренных местах достаточно высоки, что свидетельствует о низкой вероятности ошибки секвенирования.
Команда |
Что делает |
convert2annovar.pl -format vcf4 snp1.vcf > snp1.avinput | Конвертирует файл .vcf формата в удобный для работы annovar формат |
annotate_variation.pl -filter -out SR_SNP -build hg19 -dbtype snp138 snp1.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по Dbsnp |
annotate_variation.pl -out refgen -build hg19 snp1.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по Refgene |
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000Genomes snp1.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по 1000 Genomes |
annotate_variation.pl -regionanno -build hg19 -out GWAS -dbtype gwasCatalog snp1.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация по GWAS |
annotate_variation.pl snp1.avinput -filter -dbtype clinvar_20150629 -buildver hg19 -out CLINVAR /nfs/srv/databases/annovar/humandb.old/ | Аннотация по Clinvar |
Вопрос |
Ответ |
На какие категории делит snp база данных refseq в annovar? Сколько snp у Вас попало в каждую группу? (в скобках) | intronic(90), ncRNA_intronic(61),ncRNA_exonic(12), exonic(9), , intergenic(2), upstream(1), downstream(1), UTR5(1) |
В какие гены попали Ваши snp? | TPTE2, COL4A1, PHF11 |
К каким нуклеотидным и аминокислотным заменам привели snp? | 6 синонимичных, 3 несинонимичных |
Сколько snp имеет rs? | 144 |
Что Вы можете сказать о частоте найденных snp? | Средняя встречаемость: 50,46% |
Что Вы можете сказать о клинической аннотации snp? | Согласно GWAS найдены SNP, связанные с ожирением, сердечной гипертрофией и артериальной ригидностью. ClinVar не содержит информации по найденным полиморфизмам. |
Все snp и их характеристики по использованным для аннотации базам данных: | Таблица с данными всех аннотаций |
Учебные реалии, или список семестров;
© Daniel Igumnov, 2018