Всероссийский съезд советов возглавляет Китоглав.
По решению скелетов, кто левее, тот и прав. Кобыла и трупоглазые жабы, "Будущее вечно"
Подготовка чтений для картирования
Индексация референса
Файл с референсом (chr10.fna) – это файл с последовательностью десятой хромосомы человека в fasta-формате. Он был скопирован в директорию /mnt/scratch/NGS/legoushque/bwa/. Индексация производилась с использованием следующей команды:
bwa index -a bwtsw chr10.fna
Как устроена эта команда: bwa index – имя программы, которая производит индексацию. -a bwtsw – алгоритм индексации. chr10.fna – последовательность, которую нужно проиндексировать.
На выходе полчилось 5 файлов: chr10.fna.amb, chr10.fna.ann, chr10.fna.bwt, chr10.fna.pac, chr10.fna.sa.
Описание образца
Информация о чтениях содержится в NCBI: SRR10720412.
Прибор: Illumina Genome Analyzer IIx.
Организм: Homo sapiens.
Стратегия секвенирования: экзомное секвенирование.
Чтения: парноконцевые.
Сколько чтений ожидается: 41 398 792.
Проверка качества исходных чтений
Проверка проводилась с помощью программы FastQC, а именно, с помощью следующей команды:
На выходе получилось два файла: для прямого прочтения и для обратного.
Всего получилось 41 398 792 чтений, как прямых, так и обратных. Также это число совпадает с ожидаемым числом чтений.
Графики с качеством нуклеотидов представлены на Рисунке 1. Видно, что качество ухудшается ближе, но тем не менее почти все нуклеотиды находятся в "зелёной" зоне, то есть им можно доверять.
На Рисунке 2 представлено распределение средного качества нуклеотидов для чтения. Видно, что большинство чтений имеют среднее качество 39, а чтений с плохим качеством (<20) практически нету.
На Рисунке 3 представлено распределение длин чтений. Можно видеть, что абсолютно все чтения имеют длину 75 нуклеотидов.
Фильтрация чтений
Фильтрация производилась при помощи программы trimmomatic. А именно использовалась следующая команда:
java -jar /usr/share/java/trimmomatic.jar PE -threads 6 -phred33 SRR10720412_1.fastq.gz SRR10720412_2.fastq.gz trim_p1.fastq.gz trim_u1.fastq.gz trim_p2.fastq.gz trim_u2.fastq.gz TRAILING:20 MINLEN:50
Как работает эта команда: java -jar /usr/share/java/trimmomatic.jar – запуск программы. PE – парноконцевые чтения (в случае одноконцевых указывается SE). -threads 6 – использовать 6 ядер, чтобы быстрее считалось. -phred33 – используемые Quality score. SRR10720412_1.fastq.gz SRR10720412_2.fastq.gz – входные файлы. trim_p1.fastq.gz trim_u1.fastq.gz trim_p2.fastq.gz trim_u2.fastq.gz – выходные файлы. TRAILING:20 – удалить с конца нуклеотиды с качеством ниже 20. MINLEN:50 – удалить чтения длиной меньше 50 пар оснований.
Проверка качества триммированных чтений
Проверка качества производилась при помощи программы fastqc. Использовалась следующая команда:
fastqc trim_*
Полученные файлы и некоторая информация из них представлена в таблице 1. Непарных чтений оказалось сильно меньше, чем парных.
Таблица 1. Некоторые данные по чтениям после триммированиям. (заголовки кликабельные)
Информация по качеству нуклеотидов в чтениях представлена на Рисунке 4. Видно, что качество непарных чтений сильно хуже, чем у парных. Качество парных улучшлось по сравнению с исходными чтениями, а непарных, наоборот, ухудшилось.
На Рисунке 5 представлено распределение средного качества нуклеотидов для парных чтений после триммирования. Графики практически не изменились по сравнению с чтениями до триммирования. Всё также большинство чтений имеют среднее качество 39. График для прямого чтения стал чуть более "пологим".
На Рисунке 6 представлено распределение длин последовательностей парных чтений после триммирования. Большинство последовательностей всё ещё имеют длину 75, однако теперь появилось незначительное (примерно в 35 миллионов раз меньшее) количество последовательностей меньше длины (больше либо равной 50, потому что мы удаляли чтений короче 50 п.н.).