Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

Практикум 11

Задача: Найти и описать полиморфизмы у пациента

Дано:

1. Чтения экзома, картирующиеся на участок хромосомы человека. Файлы с одноконцевыми чтениями в формате fastq лежат на kodomo в директории /P/y14/term3/block4/SNP/reads. Распределение файлов по студентам см. в табл..

2. Хромосомы человеческого генома (сборка версии hg19) лежат в директории /nfs/srv/databases/ngs/Human на kodomo.

В отчёт включите

Часть I: подготовка чтений

0. Создание рабочей директории.

1. Анализ качества чтений.

Комментарий: программа FastQC установлена на kodomo, её можно вызвать командой "fastqc file.fastq", где file.fastq — имя файла с чтениями. Версию с графическим интерфейсом можно поставить на свой компьютер. В результате работы программы Вы получите архив (.zip), который содержит отчет о программе в виде html файла.

2. Очистка чтений

Комментарий: программа Trimmomatic установлена на kodomo. Вызывать её можно так:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 infile.fastq outfile.fastq step

где infile.fastq и outfile.fastq — входной и выходной файлы с чтениями, а step — выражение, указывающее, какую операцию производить.

Например, для удаления участков плохого качества можно вместо "step" написать SLIDINGWINDOW:10:28, что означает пройти по прочтениям окном длиной 10 и удалить правый конец каждого прочтения после окна со средним качеством меньше 28 (если такое окно найдётся). Почитайте руководство пользователя и выясните, как удалить плохие буквы с конца и как оставить только прочтения длины не менее 50. В чтениях, с которыми Вы работаете, адаптеры уже удалены.

В отчет включите:

Часть II: картирование чтений

3. Картирование чтений.

Комментарий: Все необходимые для запуска программы Hisat2 файлы лежат тут: /home/students/y06/anastaisha_w/hisat2-2.0.5

4. Анализ выравнивания

Комментарий: программа samtools также стоит на kodomo. Чтобы правильно запускать ее, изучите руководство.

В отчете укажите

Часть III: Анализ SNP

5. Поиск SNP и инделей.

Комментарий: для работы с программой IGV ознакомьтесь с руководством. Помните, что Вы работаете со сборкой генома человека версии hg19. Загрузите в программу отсортированный .bam файл с выравниванием. Сначала Вы не увидите никаких чтений, т.к. на экране будет представлен сразу весь геном. После работы с annovar Вы уже знаете, в какие гены попали Ваши чтения. В строке поиска IGV укажите один из Ваших генов, чтобы приблизить выравнивание так, чтобы было удобно смотреть на чтения.

6. Аннотация SNP.

Комментарий: программа установлена на kodomo: /nfs/srv/databases/annovar. Для работы с программой annovar из .vcf файла необходимо получить файл, с которым умеет работать эта программа. Сделать это можно с помощью скрипта convert2annovar.pl. См. руководство. Для аннотации файла с snp с помощью предложенных баз данных используйте скрипт annotate_variation.pl. В руководстве можно найти всю необходимую информацию о работе с программой. Например, узнать, какие из Ваших snp имеют rs, можно с помощью команды:

annotate_variation.pl -filter -out outputfile -build hg19 -dbtype snp138 inputfile.human humandb/

где inputfile.human — входной файл, полученный после обработки .vcf с помощью convert2annovar.pl (расширение не имеет значения); outputfile — выходной файл; humandb/ — директория, в которой лежат базы данных (все необходимые базы данных уже есть на kodomo, пользоваться опцией -downdb не надо!); snp138 — база данных, с которой вы работаете. Базы данных в annovar часто обновляются, для корректного запуска программы всегда нужно знать, какая версия какой базы данных у Вас скачена. Для вас: refgene — refGene; dbsnp — snp138; 1000 genomes — 1000g2014oct; GWAS — gwasCatalog; Clinvar — clinvar_20150629. В Annovar существуют 3 типа аннотаций по базам данных, основанных на: генной разметке (gene-based annotation); разметке других регионов генома (region-based annotation); фильтрации (filter-based annotation). Команды, с помощью которых можно проаннотировать полиморфизмы по необходимым базам данных:

refgene - gene-based annotation

annotate_variation.pl -out ex1 -build hg19 example/ex1.avinput humandb/

dbsnp - filter-based annotation

annotate_variation.pl -filter -out ex1 -build hg19 -dbtype snp138 example/ex1.avinput humandb/

1000 genomes - filter-based annotation

annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out ex1 example/ex1.avinput humandb/

Gwas - region-based annotation

annotate_variation.pl -regionanno -build hg19 -out ex1 -dbtype gwasCatalog example/ex1.avinput humandb/

Clinvar - filter-based annotation

annotate_variation.pl example/ex1.avinput humandb/ -filter -dbtype clinvar_20140211 -buildver hg19 -out ex1

Не забывайте, пожалуйста, прописывать правильные пути до тех файлов, к которым Вы обращаетесь!!!

Отчет

В отчете укажите