Учебный сайт Лидии Гаркуль

Введение в анализ данных NGS.

Цель данного практикума - подготовить необходимые файлы, изучить качество чтений, отфильтровать чтения и подготовить их для картирования на одну из хромосом (мне досталась 8 хромосома).

1. Описание файла с референсом.

Файл chr8.fna с референсом восьмой хромосомы оказался fasta-файлом с её последовательностью. В первой строке дана общая информация о последовательности: RefSeq AC (NC_000008.11) и описание с указанием организма и названием геномной сборки (Homo sapiens chromosome 8, GRCh38.p13 Primary Assembly). В начале и в конце последовательности идут достаточно протяженные участки неизвестных нуклеотидов (N).

Первая строка выглядит так:

>NC_000008.11 Homo sapiens chromosome 8, GRCh38.p13 Primary Assembly

2. Индексация референса.

BWA - это программный пакет для картирования малоразличающихся последовательностей относительно большой референсной последовательности (в моем случае 8 хромосома человека). Он состоит из трех алгоритмов: BWA-backtrack, BWA-SW и BWA-MEM [1]. В данном практикуме мы используем алгоритм BWA-SW. Сначала нужно проиндексировать референс с помощью команды bwa index -a bwtsw chr8.fna. Команда index производит саму индексацию, опция -a позволяет указать название алгоритма, для которого производится индескация (bwtsw), chr8.fna - имя индексируемого файла.

На выходе программа выдает пять файлов: chr8.fna.amb, chr8.fna.ann, chr8.fna.bwt, chr8.fna.pac и chr8.fna.sa. Файлы chr8.fna.bwt, chr8.fna.pac и chr8.fna.sa в текстовом редакторе просмотреть не удалось. В файле chr8.fna.amb видимо содержится информация о неопознанных нуклеотидах, а в файле chr8.fna.ann общая информация о данной последовательности.

3. Описание образца.

В базе NCBI по данному ID SRR10720419 была найдена некоторая информацио об образце (представлена в таблице 1).

Таблица. 1. Информация об образце.
Ссылка на информацию об образце https://www.ncbi.nlm.nih.gov/sra/?term=+SRR10720419
Прибор Illumina Genome Analyzer IIx
Организм Homo sapiens
Стратегия секвенирования Whole-exome sequencing
Парноконцевые или одноконцевые чтения Парноконцевые
Сколько чтений ожидается (spots) 41,277,367

4. Проверка качества исходных чтений.

Для проверки качества двух парноконцевых чтений была запущена команда fastqc для каждого файла:

fastqc SRR10720419_1.fastq.gz

fastqc SRR10720419_2.fastq.gz

На выходе программа выдает файлы SRR10720419_1_fastqc.html и SRR10720419_2_fastqc.html. Из них была получена следующая информация:

5. Фильтрация чтений.

Далее с помощью программы Trimmomatic наши чтения были дополнительно отфильтрованы. В командную строку была введена следующая команда:

java -jar /usr/share/java/trimmomatic.jar PE -threads 12 -phred33 SRR10720419_1.fastq.gz SRR10720419_2.fastq.gz out_paired_SRR10720419_1.fastq.gz out_unpaired_SRR10720419_1.fastq.gz out_paired_SRR10720419_2.fastq.gz out_unpaired_SRR10720419_2.fastq.gz MINLEN:50 TRAILING:20

Объяснения параметров:

6. Проверка качества триммированных чтений.

Далее к четырем получившимся файлам была снова применена команда fastqc. Ниже представнены вводимые команды и анализ получившихся файлов:

Литература и ссылки.

1. Мануал к bwa - тут.

Все команды, используемые в данном практикуме, были записаны в текстовый файл. Он находится здесь.