Анализ качества и очистка чтений

Исходным файлом для работы был один из файлов с чтениями генома Arabidopsis thaliana с именем Ath_tae_CTTGTA_L003_R2_005.fastq.gz, который можно скачать отсюда.

Использую программу FastQC, установленную на сервере kodomo, с помощью следующей команды был получен анализ этого чтения, представленный здесь (автоопредеённый формат fastqc - phred33).

fastgc Ath_tae_CTTGTA_L003_R2_005.fastq

Далее, с помощью программы Trimmomatic была осуществленная очистка скачанных стений. Для этого, также, необходим файл с адаптерами, который можно скачать здесь. Для очистки использовалась следующая команда в Bash:

java -jar /usr/share/java/trimmomatic.jar SE Ath_tae_CTTGTA_L003_R2_005.fastq Ath_tae_CTTGTA_L003_R2_005_cleaned.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:50

Полученный файл снова был обработан FastQC, на выходе был получен следующий анализ.

После очистки из 4000000 чтений осталось 3850300. В исходном файле длина чтений был 101 нуклеотид, после очистки эта длина стала варьироваться от 49 до 101. Изменился график Per base sequence quality, показывающий качество чтений. Теперь все чтения находятся в "зелёной" хзоне достоверности, в отличие от исходного файла. Содержание разичных нуклеотидов в чтениях, судя по графику Per base sequence content фактически не изменился. Но увеличился разброс на графике Per sequence quality scores.

© Демкив Андрей 2013 Дата последнего изменения: 29.05.2015