<< Назад к странице 3 семестра
Практикум 11
Часть I: подготовка чтений
Задания №1-2. Анализ качества чтений до и после очистки.
Таблица 1. Использованные команды |
Команда |
Описание |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr22.fastq trimmed_chr22.fastq TRAILING:20 |
Данная команда берет на вход риды из файла chr22.fastq, вырезает все нуклеотиды с качеством ниже 20, начиная с конца рида,
и записывает результат в файл trimmed_chr22.fastq. |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 trimmed_chr22.fastq trimmed_chr22_1.fastq MINLEN:50 |
Данная команда берет на вход файл trimmed_chr22.fastq, убирает из него все риды размера меньше 50 и записывает результат в файл trimmed_chr22_1.fastq |
Рис. 1. График FastQC "Per base quality" до чистки
Рис. 2.График FastQC "Per base quality" после чистки
Число чтений до очистки: 11427
Число чтений после очистки: 11091
После выполнения первой команды были удалены все нуклеотиды с качеством ниже 20. При этом часть ридов стала короче. После выполнения второй
команды были удалены все риды длиной меньше 50.
Часть II: картирование чтений
1) Индексирование референсной последовательности:
/home/students/y06/anastaisha_w/hisat2-2.0.5/hisat2-build chr22.fasta chrbuild
2) Получение выравнивания прочтений и референса в формате .sam
/home/students/y06/anastaisha_w/hisat2-2.0.5/hisat2 -x chrbuild -U trimmed_chr22_1.fastq --no-spliced-alignment --no-softclip > align.sam
3) Перевод файла align в формат .bam:
samtools view align.sam -bo align.bam
4) Отсортировать выравнивание чтений с референсом по координате в референсе начала чтения
samtools sort align.bam -T temp.txt -o sort_align.bam
5) Индексирование отсортированного .bam файла
samtools index sort_align.bam
6) Получение файла со статистикой:
samtools stats sort_align.bam > stats.txt
Из этого файла видно, что 11061 чтений было откартировано на хромосому, 54 - не картировано.
Часть III: Поиск SNP и инделей.
1) Создание файла с полиморфизмами в формате .bcf:
samtools mpileup -uf chr22.fasta sort_align.bam > snp.bcf
2) Создание файла со списком отличий между референсом и чтениями в формате .vcf
bcftools call -cv snp.bcf > snp.vcf
Таблица 2. Характеристики трех полиморфизмов из .vcf файла |
№ |
Координата |
Тип полиморфизма |
Что было в референсе |
Что найдено в чтениях |
Глубина покрытия данного места |
Качество чтений в данном месте |
1 |
26159129 |
Вставка |
CTTT |
CTTTTT |
10 |
176.468 |
2 |
28656299 |
Делеция |
CTATAT |
CTAT |
1 |
13.6619 |
3 |
26159289 |
Замена |
G |
A |
19 |
221.999 |
Всего получено 225 SNP, из них инделей - 10
Аннотация SNP
1) Создание файла, совместимого с программой annovar:
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 /nfs/srv/databases/ngs/alex_morozov/pr11/snp.vcf > /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar
Refgene
1) Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl -out /nfs/srv/databases/ngs/alex_morozov/pr11/rs.refgene -build hg19 /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/
2) Содержание SNP в различных участках генома:
Экзоны - 25
Интроны - 197
Таким образом, очевидно, что наибольшее число SNP накапливается в интронах
Dbsnp
1) Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/alex_morozov/pr11/dbsnp.snp -build hg19 -dbtype snp138 /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/
2) 177 snp имеют rs
48 snp rs не имеют
Clinvar
1) Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/alex_morozov/pr11/rs.clinvar -dbtype clinvar_20150629 -buildver hg19 /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/
2) Получил на выход 2 файла. В одном были перечислены snp, имеющие влияние на здоровье носителя. Всего таких snp в файле было 2. В другом файле были перечислены snp без аннотации
1000Genomes
1) Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/alex_morozov/pr11/rs.1000genomes -buildver hg19 -dbtype 1000g2014oct_all /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/
2) По аннотации данной БД можо приблизительно оценить частоту встречаемости SNP.
Самая высокая частота встречаемости SNP из числа исследуемых в этом практикуме: 0.9998, самая низкая частота встречаемости: 0.00319489
GWAS
1) Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/alex_morozov/pr11/rs.gwas -build hg19 -dbtype gwasCatalog /nfs/srv/databases/ngs/alex_morozov/pr11/snp.annovar /nfs/srv/databases/annovar/humandb/
2) По аннотации GWAS можно узнать, к каким нуклеотидным и аминокислотным заменам привели snp. Полученный файл, где должны находится аннотированные записи, оказался
пустым, следовательно, snp не приводят к фенотипическим изменениям
|