Учебный сайт Морозова Александра
<< Назад к странице 3 семестра

Практикум 11

Часть I: подготовка чтений

Задания №1-2. Анализ качества чтений до и после очистки.

Таблица 1. Использованные команды

Команда

Описание

java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr22.fastq trimmed_chr22.fastq TRAILING:20

Данная команда берет на вход риды из файла chr22.fastq, вырезает все нуклеотиды с качеством ниже 20, начиная с конца рида, и записывает результат в файл trimmed_chr22.fastq.

java -jar /usr/share/java/trimmomatic.jar SE -phred33 trimmed_chr22.fastq trimmed_chr22_1.fastq MINLEN:50

Данная команда берет на вход файл trimmed_chr22.fastq, убирает из него все риды размера меньше 50 и записывает результат в файл trimmed_chr22_1.fastq

Рис. 1. График FastQC "Per base quality" до чистки

Рис. 2.График FastQC "Per base quality" после чистки

Число чтений до очистки:

11427

Число чтений после очистки:

11091

После выполнения первой команды были удалены все нуклеотиды с качеством ниже 20. При этом часть ридов стала короче. После выполнения второй команды были удалены все риды длиной меньше 50.

Часть II: картирование чтений

1) Индексирование референсной последовательности:

/home/students/y06/anastaisha_w/hisat2-2.0.5/hisat2-build chr22.fasta chrbuild

2) Получение выравнивания прочтений и референса в формате .sam

/home/students/y06/anastaisha_w/hisat2-2.0.5/hisat2 -x chrbuild -U trimmed_chr22_1.fastq --no-spliced-alignment --no-softclip > align.sam

3) Перевод файла align в формат .bam:

samtools view align.sam -bo align.bam

4) Отсортировать выравнивание чтений с референсом по координате в референсе начала чтения

samtools sort align.bam -T temp.txt -o sort_align.bam

5) Индексирование отсортированного .bam файла

samtools index sort_align.bam

6) Получение файла со статистикой:

samtools stats sort_align.bam > stats.txt

Из этого файла видно, что 11061 чтений было откартировано на хромосому, 54 - не картировано.

Часть III: Поиск SNP и инделей.

1) Создание файла с полиморфизмами в формате .bcf:

samtools mpileup -uf chr22.fasta sort_align.bam > snp.bcf

2) Создание файла со списком отличий между референсом и чтениями в формате .vcf

bcftools call -cv snp.bcf > snp.vcf

Таблица 2. Характеристики трех полиморфизмов из .vcf файла

Координата

Тип полиморфизма

Что было в референсе

Что найдено в чтениях

Глубина покрытия данного места

Качество чтений в данном месте

1

26159129

Вставка

CTTT

CTTTTT

10

176.468

2

28656299

Делеция

CTATAT

CTAT

1

13.6619

3

26159289

Замена

G

A

19

221.999

Всего получено 225 SNP, из них инделей - 10

Аннотация SNP

1) Создание файла, совместимого с программой annovar:

perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 /nfs/srv/databases/ngs/alex_morozov/pr11/snp.vcf > /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar

Refgene

1) Команда:

perl /nfs/srv/databases/annovar/annotate_variation.pl -out /nfs/srv/databases/ngs/alex_morozov/pr11/rs.refgene -build hg19 /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/

2) Содержание SNP в различных участках генома:

Экзоны - 25

Интроны - 197

Таким образом, очевидно, что наибольшее число SNP накапливается в интронах

Dbsnp

1) Команда:

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/alex_morozov/pr11/dbsnp.snp -build hg19 -dbtype snp138 /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/

2) 177 snp имеют rs

48 snp rs не имеют

Clinvar

1) Команда:

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/alex_morozov/pr11/rs.clinvar -dbtype clinvar_20150629 -buildver hg19 /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/

2) Получил на выход 2 файла. В одном были перечислены snp, имеющие влияние на здоровье носителя. Всего таких snp в файле было 2. В другом файле были перечислены snp без аннотации

1000Genomes

1) Команда:

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/alex_morozov/pr11/rs.1000genomes -buildver hg19 -dbtype 1000g2014oct_all /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/

2) По аннотации данной БД можо приблизительно оценить частоту встречаемости SNP.

Самая высокая частота встречаемости SNP из числа исследуемых в этом практикуме: 0.9998, самая низкая частота встречаемости: 0.00319489

GWAS

1) Команда:

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/alex_morozov/pr11/rs.gwas -build hg19 -dbtype gwasCatalog /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/

2) По аннотации GWAS можно узнать, к каким нуклеотидным и аминокислотным заменам привели snp. Полученный файл, где должны находится аннотированные записи, оказался пустым, следовательно, snp не приводят к фенотипическим изменениям