Практикум 11Задача: Найти и описать полиморфизмы у пациентаЧасть I: подготовка чтений0. Создание рабочей директории.В задании 0 требовалось В директории /nfs/srv/databases/ngs/ создайте свою директорию и скопируйте в нее Ваши файлы с ридами (.fastq) и хромосомой (.fasta). 1. Анализ качества чтений.Сделайте контроль качества Ваших чтений с помощью программы FastQC. Комментарий: программа FastQC установлена на kodomo, её можно вызвать командой "fastqc file.fastq", где file.fastq — имя файла с чтениями. Версию с графическим интерфейсом можно поставить на свой компьютер. В результате работы программы Вы получите архив (.zip), который содержит отчет о программе в виде html файла. Ссылка на отчет fastqc до очисткиСсылка на отчет fastqc после очистки2. Очистка чтений.Очистка чтений проводилась с помощью программы Trimmomatic. Отрежьте с конца каждого чтения нуклеотиды с качеством ниже 20, оставьте только чтения длиной не меньше 50 нуклеотидов. Так как программа Trimmomatic установлена на kodomo, то первым делом вызываем ее: java -jar /usr/share/java/trimmomatic.jar SE -phred33 infile.fastq outfile.fastq step где infile.fastq и outfile.fastq — входной и выходной файлы с чтениями, а step — выражение, указывающее, какую операцию производить. Итак, команды: TRAILING: Cut bases off the end of a read, if below a threshold quality MINLEN: Drop the read if it is below a specified length Сделайте анализ качества очищенных чтений с помощью FastQC; сравните с прежней выдачей FastQC. java -jar /usr/share/java/trimmomatic.jar SE -phred33 infile.fastq outfile.fastq TRAILING:20 java -jar /usr/share/java/trimmomatic.jar SE -phred33 infile.fastq outfile.fastq MINLEN:50Рис.1. "Per base quality" до очистки
Рис.2. "Per base quality" после очистки
Часть II: картирование чтений3. Картирование чтений.Откартируйте очищенные чтения с помощью программы Hisat2. Этапы Сначала необходимо проиндексировать референсную последовательность; команда hisat2-build Команда:export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5 hisat2-build chr21.fasta chr21 В результате возникли файлы chr21.1.ht2,...,chr21.6.ht2 Затем построить выравнивание прочтений и референса в формате .sam. Запустите hisat2 с параметрами --no-spliced-alignment и --no-softclip Команда: hisat2 -x chr21 -U chr21afterafter.fastq --no-spliced-alignment --no-softclip chr21.sam 4. Анализ выравниванияПереведите выравнивание чтений с референсом в бинарный формат .bam. Используйте пакет samtools, команда view: samtools view; Команда: samtools view -b chr21.sam > chr21.bam Отсортируйте выравнивание чтений с референсом (получившийся после картирования .bam файл) по координате в референсе начала чтения; команда samtools sort; Команда: samtools sort chr21.bam chr21sort В итоге имеем файл chr21sort.bam Проиндексируйте отсортированный .bam файл командой samtools index Команда: samtools index chr21sort.bam Появился новый файл chr21sort.bam.baiРис.3. Информация из Hisat2
Часть III: Анализ SNP5. Поиск SNP и инделей.Создайте файл с полиморфизмами в формате .bcf; команда samtools mpileup -uf. Опции и формат описаны в руководстве. Команда: samtools mpileup -uf chr21.fasta chr21sort bam -o chr21poly.bcf. Создайте файл со списком отличий между референсом и чтениями в формате .vcf. Используйте команду "bcftools call -cv" пакета bcftools. Команда: bcftools call chr21poly.bcf -cv > chr21.vcf Найдите и опишите в отчете три полиморфизма из .vcf файла. Для каждого приведите: кординату; тип полиморфизма: замена, вставка или делеция; что было в референсе, что найдено в чтениях; глубина покрытия данного места; качество чтений в данном месте.
6. Аннотация SNP.С помощью программы annovar проаннотируйте только полученные snp (индели не надо!). Используйте базы данных: refgene, dbsnp, 1000 genomes, GWAS, Clinvar. Комментарий: программа установлена на kodomo: /nfs/srv/databases/annovar. Для работы с программой annovar из .vcf файла необходимо получить файл, с которым умеет работать эта программа. Сделать это можно с помощью скрипта convert2annovar.pl. См. руководство. Для аннотации файла с snp с помощью предложенных баз данных используйте скрипт annotate_variation.pl. Команда: export PATH=${PATH}:/nfs/srv/databases/annovar perl convert2annovar.pl -format vcf4 chr21.vcf > chr21.avinput Для аннотации файла с snp с помощью предложенных баз данных используйте скрипт annotate_variation.pl. В руководстве можно найти всю необходимую информацию о работе с программой. Например, узнать, какие из Ваших snp имеют rs, можно с помощью команды: annotate_variation.pl -filter -out outputfile -build hg19 -dbtype snp138 inputfile.human humandb/
Команды, с помощью которых можно проаннотировать полиморфизмы по необходимым базам данных: 1. refgene - gene-based annotationКоманда: perl annotate_variation.pl -out refgene -build hg19 chr21.avinput /nfs/srv/databases/annovar/humandb/ Рис.3. Команда "refgene"
Результаты:
В результате получается таблица с указанием участков с заменой аминокислот. Таким образом имеем 3 синонимичных SNV и 1 несинонимичную замену. Далее в выдаче программы указывается координаты, и что именно на что заменилось. Синонимичные замены: C -> T (так и остался глицин); G -> C (так и остался серин); A-> G (так и остался пролин). Несинонимичная: A -> G (серин -> глицин). (это то, что было в файле refgene.exonic_variant_function). В другом выдаваемом файле описаны все замены, и не только в экзонах. Еще указаны гены, в которых это произошло: NRIP1, UBASH3A, AGPAT3. Также указано качество и глубина, гомо-/гетерозиготность. Глубина не очень хорошая, ее значние совсем невелико, в основном <5. 2.dbsnp - filter-based annotationКоманда: perl annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 chr21.avinput /nfs/srv/databases/annovar/humandb/ Рис.4. Команда "dbsnp"
Результаты:
Здесь в результате можно увидеть сколько snp имеют rs - 63 в итоге. 3.1000 genomes - filter-based annotationКоманда: perl annotate_variation.pl -filter -dbtype 1000g2014oct_all -out 1000g -buildver hg19 chr21.avinput /nfs/srv/databases/annovar/humandb/ Рис.5. Команда "1000g"
Результаты:
Программа по аннотации по 1000 genomes позволяет оценить встречаемость данного snp в среднем у людей. Самая большая частота - 0.81869. Самая маленькая - 0.0131789. 4.Gwas - region-based annotationКоманда: perl annotate_variation.pl -regionanno -build hg19 -out ex1 -dbtype gwasCatalog example/ex1.avinput humandb/ Рис.6. Команда "gwas"
Результаты:
Gwas снабжает сведениями про ассоциированность с болезнями. В данном случае snp связаны со следубщими болезнями: Cognitive performance, Type 1 diabetes, Phospholipid levels (plasma). 5.Clinvar - filter-based annotationperl annotate_variation.pl example/ex1.avinput humandb/ -filter -dbtype clinvar_20140211 -buildver hg19 -out ex1 Рис.7. Команда "clinvar"
Результаты:
|
||||||||||||||||||||||||
© Cherkashina Anastasia 2017 |