|
Анализ качества и очистка чтений
Для анализа качества чтений мне был дан один из файлов с чтениями генома Arabidopsis thaliana. Для этого я использовала
программу FasqQC, установленую на сервере kodomo. Ссылка на результат
тут.
Для jчистки чтений я использовала все тот же файл и программу Trimmomatic. Все файлы с примерами адаптеров я поместила в
один (adapters.fa). Cтрока запроса:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 Ath_tae_CTTGTA_L003_R1_003.fastq result.fastq
ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:50
Затем снова с помощью FasqQC я получила
отчет.
Приведем несколько результатов очистки. Сравним Per base sequence quality. Хорошо видно, что Trimmomatic удалил
хвостовые нуклеотиды с качеством ниже 28, среднее значение качества нуклеотидов выросло. Это хорошо заметно для концевых ридов.
Рис 1. Per base sequence quality до очистки.
|
|
Рис 2. Per base sequence quality после очистки.
|
Еще одно отличие, бросающееся в глаза - это графики Sequence length distribution. На самом деле тут отличия почти нет.
Сначала длины всех ридов были 101, а после очистке появили (по причинам описанным выше) и более короткие, однако по второму графику
видно, что доля их мала.
Рис 1. Sequence length distribution до очистки.
|
|
Рис 2. Sequence length distribution после очистки.
|
|