Анализ качества и очистки чтений

СеместрыТретий семестр • Анализ качества и очистки чтений

Анализ качества чтений

Программа FastQC позволяет автоматизированно оценить качество чтений по многочисленным показателям. Я работал с файлом с чтениями генома резуховидки Arabidopsis thaliana. Результат обработки доступен по ссылке.

Использованные команды:

gunzip Ath_tae_CTTGTA_L003_R2_006.fastq.gz
fastqc Ath_tae_CTTGTA_L003_R2_006.fastq

Очистка чтений

Программа Trimmomatic позволяет проводить различные операции по очистке чтений. Я удалил последовательности адаптеров (предворительно создав файл со всеми примерами), с конца каждого прочтения убрал нуклеотиды с качеством ниже 20 и оставил только прочтения длиной не менее 50 нуклеотидов. Использованные команды:

java -jar /usr/share/java/trimmomatic.jar SE Ath_tae_CTTGTA_L003_R2_006.fastq out.fasta ILLUMINACLIP:adapters.fa:2:7:7
java -jar /usr/share/java/trimmomatic.jar SE out.fasta out1.fastq TRAILING:20
java -jar /usr/share/java/trimmomatic.jar SE out1.fastq out2.fastq MINLEN:50

Trimmomatic автоматически определил формат чтений как phred33. Полученные после очистки чтения были проанализированы FastQC, выдача доступна по ссылке.

Сравнение качества чтений

До очистки файл содержал 4000000 чтений, после очистки их количество уменьшилось чуть более, чем на 100000, и стало равным 3892273. Качество последовательности по каждому основанию ожидаемо увеличилось практически по все длине, на правом конце также уменьшился разброс. Улучшение качества для нуклеотидов правого конца связано с отрезанием последних нуклеотидов, уменьшение разброса - с отсечением низкокачественных нуклеотидов.

Графики Per base sequence content очень сходны, так как отбрасывание некоторого количества чтений незначительно влияет на общую картину.

Изменились графики Sequence length distribution: в связи с отсечением низкокачественных нуклеотидов теперь присутствуют чтения с длиной от 50 (установленный нижний порог) до 101 с резким пиком на длине 100-101.