Цель данного практикума - подготовить необходимые файлы, изучить качество чтений, отфильтровать чтения и подготовить их для картирования на одну из хромосом (мне досталась 8 хромосома).
Файл chr8.fna с референсом восьмой хромосомы оказался fasta-файлом с её последовательностью. В первой строке дана общая информация о последовательности: RefSeq AC (NC_000008.11) и описание с указанием организма и названием геномной сборки (Homo sapiens chromosome 8, GRCh38.p13 Primary Assembly). В начале и в конце последовательности идут достаточно протяженные участки неизвестных нуклеотидов (N).
Первая строка выглядит так:
>NC_000008.11 Homo sapiens chromosome 8, GRCh38.p13 Primary Assembly
BWA - это программный пакет для картирования малоразличающихся последовательностей относительно большой референсной последовательности (в моем случае 8 хромосома человека). Он состоит из трех алгоритмов: BWA-backtrack, BWA-SW и BWA-MEM [1]. В данном практикуме мы используем алгоритм BWA-SW. Сначала нужно проиндексировать референс с помощью команды bwa index -a bwtsw chr8.fna. Команда index производит саму индексацию, опция -a позволяет указать название алгоритма, для которого производится индескация (bwtsw), chr8.fna - имя индексируемого файла.
На выходе программа выдает пять файлов: chr8.fna.amb, chr8.fna.ann, chr8.fna.bwt, chr8.fna.pac и chr8.fna.sa. Файлы chr8.fna.bwt, chr8.fna.pac и chr8.fna.sa в текстовом редакторе просмотреть не удалось. В файле chr8.fna.amb видимо содержится информация о неопознанных нуклеотидах, а в файле chr8.fna.ann общая информация о данной последовательности.
В базе NCBI по данному ID SRR10720419 была найдена некоторая информацио об образце (представлена в таблице 1).
Ссылка на информацию об образце | https://www.ncbi.nlm.nih.gov/sra/?term=+SRR10720419 |
---|---|
Прибор | Illumina Genome Analyzer IIx |
Организм | Homo sapiens |
Стратегия секвенирования | Whole-exome sequencing |
Парноконцевые или одноконцевые чтения | Парноконцевые |
Сколько чтений ожидается (spots) | 41,277,367 |
Для проверки качества двух парноконцевых чтений была запущена команда fastqc для каждого файла:
fastqc SRR10720419_1.fastq.gz
fastqc SRR10720419_2.fastq.gz
На выходе программа выдает файлы SRR10720419_1_fastqc.html и SRR10720419_2_fastqc.html. Из них была получена следующая информация:
Далее с помощью программы Trimmomatic наши чтения были дополнительно отфильтрованы. В командную строку была введена следующая команда:
java -jar /usr/share/java/trimmomatic.jar PE -threads 12 -phred33 SRR10720419_1.fastq.gz SRR10720419_2.fastq.gz out_paired_SRR10720419_1.fastq.gz out_unpaired_SRR10720419_1.fastq.gz out_paired_SRR10720419_2.fastq.gz out_unpaired_SRR10720419_2.fastq.gz MINLEN:50 TRAILING:20
Объяснения параметров:
Далее к четырем получившимся файлам была снова применена команда fastqc. Ниже представнены вводимые команды и анализ получившихся файлов:
fastqc out_paired_SRR10720419_1.fastq.gz fastqc out_unpaired_SRR10720419_1.fastq.gz fastqc out_paired_SRR10720419_2.fastq.gz fastqc out_unpaired_SRR10720419_2.fastq.gz
1. Мануал к bwa - тут.
Все команды, используемые в данном практикуме, были записаны в текстовый файл. Он находится здесь.