Учебная страница курса биоинформатики,
год поступления 2018

Семестры Студенты Преподаватели

Практикум 11

Задача: Найти и описать полиморфизмы у пациента

0. Программы.

1. Создание рабочей директории.

В директории /nfs/srv/databases/ngs/ создайте свою директорию и скопируйте в нее файл с Вашей хромосомой (.fasta). Распределение хромосом см. в Ведомости. Файлы с хромосомами находятся в директории /nfs/srv/databases/ngs/Human

2. Подготовка референса.

Проиндексируйте референсную последовательность; команда hisat2-build
Полезная команда samtools faidx chr.fa (доп. задание. Изучите в мануале, что делает эта команда и что получается на выходе)

3. Чтения.

Чтения экзома, картирующиеся на участок хромосомы человека. Файлы с одноконцевыми чтениями в формате fastq лежат на kodomo в директории /nfs/srv/databases/ngs/Human/reads. Распределение файлов по студентам см. в Ведомости.

4. Анализ качества чтений.

Сделайте контроль качества Ваших чтений с помощью программы FastQC.

Комментарий: программа FastQC установлена на kodomo, её можно вызвать командой "fastqc file.fastq", где file.fastq — имя файла с чтениями. Версию с графическим интерфейсом можно поставить на свой компьютер. В результате работы программы Вы получите архив (.zip), который содержит отчет о программе в виде html файла.

5. Очистка чтений.

* Сделайте очистку чтений с помощью программы Trimmomatic. Отрежьте с конца каждого чтения нуклеотиды с качеством ниже 20, оставьте только чтения длиной не меньше 50 нуклеотидов.

Комментарий: программа Trimmomatic установлена на kodomo. Вызывать её можно так:

java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 infile.fastq outfile.fastq step

где infile.fastq и outfile.fastq — входной и выходной файлы с чтениями, а step — выражение, указывающее, какую операцию производить.

Например, для удаления участков плохого качества можно вместо "step" написать SLIDINGWINDOW:10:28, что означает пройти по прочтениям окном длиной 10 и удалить правый конец каждого прочтения после окна со средним качеством меньше 28 (если такое окно найдётся). Почитайте руководство пользователя и выясните, как удалить плохие буквы с конца и как оставить только прочтения длины не менее 50. В чтениях, с которыми Вы работаете, адаптеры уже удалены.

6. Анализ качества чтений, прошедших процедуру триммирования.

Сделайте контроль качества Ваших чтений, прошедших триммирование, с помощью программы FastQC (аналогично пункту 4).

7. Картирование чтений.

Картируйте триммированные чтений на геном с помощью программы hisat2.

Сначала необходимо проиндексировать референсную последовательность; команда hisat2-build (см. п.2)
Затем постройте выравнивание прочтений и референса в формате .sam. Запустите hisat2 с параметрами --no-spliced-alignment и --no-softclip
Сохраните вывод программы hisat2 в отдельный файл

Комментарий: Все необходимые для запуска программы Hisat2 файлы лежат тут: /home/students/y06/anastaisha_w/hisat2-2.0.5

8. Анализ выравнивания.

Переведите выравнивание чтений с референсом в бинарный формат .bam. Используйте пакет samtools, команда view: samtools view;
Отсортируйте выравнивание чтений с референсом (получившийся после картирования .bam файл) по координате в референсе начала чтения; команда samtools sort;
Проиндексируйте отсортированный .bam файл командой samtools index
Выясните, сколько чтений откартировано на геном; загляните в вывод программы Hisat2; воспользуйтесь программой samtools flagstat.

9. Поиск snp и инделей

Создайте файл с полиморфизмами в формате .bcf; команда samtools mpileup -uf.
Создайте файл со списком отличий между референсом и чтениями в формате .vcf. Используйте команду "bcftools call -cv" пакета bcftools.
Найдите и опишите в отчете три полиморфизма из .vcf файла. Для каждого приведите:
- кординату;
- тип полиморфизма: замена, вставка или делеция;
- что было в референсе, что найдено в чтениях;
- глубина покрытия данного места;
- качество чтений в данном месте.
(* – дополнительно) Визуализируйте эти три полиморфизма с помощью IGV (см. ниже). Приведите картинки в отчёте.

Комментарий: для работы с программой IGV ознакомьтесь с руководством. Помните, что Вы работаете со сборкой генома человека версии hg19. Загрузите в программу отсортированный .bam файл с выравниванием. Сначала Вы не увидите никаких чтений, т.к. на экране будет представлен сразу весь геном. После работы с annovar Вы уже знаете, в какие гены попали Ваши чтения. В строке поиска IGV укажите один из Ваших генов, чтобы приблизить выравнивание так, чтобы было удобно смотреть на чтения.

10. Аннотация SNP.

С помощью программы annovar проаннотируйте только полученные snp (индели не надо!). Используйте базы данных: refgene, dbsnp, 1000 genomes, GWAS, Clinvar.

Комментарий: программа установлена на kodomo: /nfs/srv/databases/annovar. Для работы с программой annovar из .vcf файла необходимо получить файл, с которым умеет работать эта программа. Сделать это можно с помощью скрипта convert2annovar.pl. См. руководство. Для аннотации файла с snp с помощью предложенных баз данных используйте скрипт annotate_variation.pl. В руководстве можно найти всю необходимую информацию о работе с программой. Например, узнать, какие из Ваших snp имеют rs, можно с помощью команды:

annotate_variation.pl -filter -out outputfile -build hg19 -dbtype snp138 inputfile.human humandb/

где inputfile.human — входной файл, полученный после обработки .vcf с помощью convert2annovar.pl (расширение не имеет значения); outputfile — выходной файл; humandb/ — директория, в которой лежат базы данных (все необходимые базы данных уже есть на kodomo, пользоваться опцией -downdb не надо!); snp138 — база данных, с которой вы работаете. Базы данных в annovar часто обновляются, для корректного запуска программы всегда нужно знать, какая версия какой базы данных у Вас скачена. Для вас: refgene — refGene; dbsnp — snp138; 1000 genomes — 1000g2014oct; GWAS — gwasCatalog; Clinvar — clinvar_20150629. В Annovar существуют 3 типа аннотаций по базам данных, основанных на: генной разметке (gene-based annotation); разметке других регионов генома (region-based annotation); фильтрации (filter-based annotation). Команды, с помощью которых можно проаннотировать полиморфизмы по необходимым базам данных:

refgene - gene-based annotation

annotate_variation.pl -out ex1 -build hg19 example/ex1.avinput humandb/

dbsnp - filter-based annotation

annotate_variation.pl -filter -out ex1 -build hg19 -dbtype snp138 example/ex1.avinput humandb/

1000 genomes - filter-based annotation

annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out ex1 example/ex1.avinput humandb/

Gwas - region-based annotation

annotate_variation.pl -regionanno -build hg19 -out ex1 -dbtype gwasCatalog example/ex1.avinput humandb/

Clinvar - filter-based annotation

annotate_variation.pl example/ex1.avinput humandb/ -filter -dbtype clinvar_20140211 -buildver hg19 -out ex1

Не забывайте, пожалуйста, прописывать правильные пути до тех файлов, к которым Вы обращаетесь!!!

ОТЧЕТ

Оформите отчет в виде страницы на kodomo.

Включите в отчет следующую информацию:

* Номер Вашей хромосомы

* Укажите все использованные команды. Оформите в виде отдельной таблицы или укажите в соответствующих пунктах отчета.

* Сколько исходно чтений Вы получили?

* Приведите картинку из результатов FastQC с оценкой качества Ваших чтений

* Доп: Приведите и объясните еще любую картинку из результатов FastQC, используя пояснения в руководстве к программе.

* Сколько чтений осталось после процедуры триммирования? Оправдано ли триммирование в случае Ваших чтений или можно было обойтись без этого? Аргументируйте. Приведите картинку качества чтений(FastQC) после триммирования.

* Сколько чтений (%) картировано на геном?

* Сделайте вывод о качестве картирования.

* Описание трех полиморфизмов из .vcf файла

* Сколько snp и сколько инделей Вы получили?

* Хорошее ли покрытие и качество у найденных полиморфизмов (приведите распределение)?

* На какие категории делит snp база данных refseq в annovar? Сколько snp у Вас попало в каждую группу?

* В какие гены попали Ваши snp?

* К каким нуклеотидным и аминокислотным заменам привели snp?

* Сколько snp имеет rs?

* Что Вы можете сказать о частоте найденных snp?

* Что Вы можете сказать о клинической аннотации snp?

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

Практикум 11

Задача: Найти и описать полиморфизмы у пациента

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2018

Практикум 11

Задача: Найти и описать полиморфизмы у пациента

Учебная страница курса биоинформатики,
год поступления 2018