Учебный сайт
Владимира Ноздрина

Всероссийский съезд советов возглавляет Китоглав.
По решению скелетов, кто левее, тот и прав.
Кобыла и трупоглазые жабы, "Будущее вечно"

Подготовка чтений для картирования

Индексация референса

 Файл с референсом (chr10.fna) – это файл с последовательностью десятой хромосомы человека в fasta-формате. Он был скопирован в директорию /mnt/scratch/NGS/legoushque/bwa/. Индексация производилась с использованием следующей команды:
bwa index -a bwtsw chr10.fna
Как устроена эта команда:
bwa index – имя программы, которая производит индексацию.
-a bwtsw – алгоритм индексации.
chr10.fna – последовательность, которую нужно проиндексировать.
На выходе полчилось 5 файлов: chr10.fna.amb, chr10.fna.ann, chr10.fna.bwt, chr10.fna.pac, chr10.fna.sa.

Описание образца

Информация о чтениях содержится в NCBI: SRR10720412.
Прибор: Illumina Genome Analyzer IIx.
Организм: Homo sapiens.
Стратегия секвенирования: экзомное секвенирование.
Чтения: парноконцевые.
Сколько чтений ожидается: 41 398 792.

Проверка качества исходных чтений

Проверка проводилась с помощью программы FastQC, а именно, с помощью следующей команды:
fastqc SRR10720412_1.fastq.gz SRR10720412_2.fastq.gz
На выходе получилось два файла: для прямого прочтения и для обратного.
 Всего получилось 41 398 792 чтений, как прямых, так и обратных. Также это число совпадает с ожидаемым числом чтений.
 Графики с качеством нуклеотидов представлены на Рисунке 1. Видно, что качество ухудшается ближе, но тем не менее почти все нуклеотиды находятся в "зелёной" зоне, то есть им можно доверять.
Рисунок 1. Качество нуклеотидов в чтении. Сверху – для прямого чтения, снизу – для обратного.

 На Рисунке 2 представлено распределение средного качества нуклеотидов для чтения. Видно, что большинство чтений имеют среднее качество 39, а чтений с плохим качеством (<20) практически нету.

Рисунок 2. Качество чтений. слева – для прямого чтения, справа – для обратного.

 На Рисунке 3 представлено распределение длин чтений. Можно видеть, что абсолютно все чтения имеют длину 75 нуклеотидов.

Рисунок 3. Распределение длин чтений. (рисунок один, потому что рисунки для прямого и обратного чтений абсолютно одинаковые)

Фильтрация чтений

Фильтрация производилась при помощи программы trimmomatic. А именно использовалась следующая команда:
java -jar /usr/share/java/trimmomatic.jar PE -threads 6 -phred33 SRR10720412_1.fastq.gz SRR10720412_2.fastq.gz trim_p1.fastq.gz trim_u1.fastq.gz trim_p2.fastq.gz trim_u2.fastq.gz TRAILING:20 MINLEN:50 Как работает эта команда:
java -jar /usr/share/java/trimmomatic.jar – запуск программы.
PE – парноконцевые чтения (в случае одноконцевых указывается SE).
-threads 6 – использовать 6 ядер, чтобы быстрее считалось.
-phred33 – используемые Quality score.
SRR10720412_1.fastq.gz SRR10720412_2.fastq.gz – входные файлы.
trim_p1.fastq.gz trim_u1.fastq.gz trim_p2.fastq.gz trim_u2.fastq.gz – выходные файлы.
TRAILING:20 – удалить с конца нуклеотиды с качеством ниже 20.
MINLEN:50 – удалить чтения длиной меньше 50 пар оснований.

Проверка качества триммированных чтений

Проверка качества производилась при помощи программы fastqc. Использовалась следующая команда:
fastqc trim_*
Полученные файлы и некоторая информация из них представлена в таблице 1. Непарных чтений оказалось сильно меньше, чем парных.
Таблица 1. Некоторые данные по чтениям после триммированиям. (заголовки кликабельные)
Чтение прямое парное обратное парное прямое непарное обратное непарное
Количество чтений 39 853 177 39 853 177 678 011 659 625
% от исходного количества 96.27% 96.27% 1.64% 1.59%

 Информация по качеству нуклеотидов в чтениях представлена на Рисунке 4. Видно, что качество непарных чтений сильно хуже, чем у парных. Качество парных улучшлось по сравнению с исходными чтениями, а непарных, наоборот, ухудшилось.

Рисунок 4. Понуклеотидное качество чтений. Сверху вниз: прямое парное, обратное парное, прямое непарное, обратное непарное.

 На Рисунке 5 представлено распределение средного качества нуклеотидов для парных чтений после триммирования. Графики практически не изменились по сравнению с чтениями до триммирования. Всё также большинство чтений имеют среднее качество 39. График для прямого чтения стал чуть более "пологим".

Рисунок 5. Качество чтений после триммирования. слева – для прямого чтения, справа – для обратного.

 На Рисунке 6 представлено распределение длин последовательностей парных чтений после триммирования. Большинство последовательностей всё ещё имеют длину 75, однако теперь появилось незначительное (примерно в 35 миллионов раз меньшее) количество последовательностей меньше длины (больше либо равной 50, потому что мы удаляли чтений короче 50 п.н.).

Рисунок 6. Распределение длин парных чтений после триммирования. Сверху – для прямого чтения, снизу – для обратного.