УЧЕБНЫЙ САЙТ АМОСОВОЙ АЛЁНЫ

Анализ качества и очистка чтений

Был скачан файл Ath_tae_CTTGTA_L003_R2_001.fastq.gz. Сделан контроль качества скачанных чтений программой FastQC. (Посмотреть). Сделала тримминг скачанных чтений с помощью программы Trimmomatic и следующей команды: java -jar /usr/share/java/trimmomatic.jar SE -phred33 Ath_tae_CTTGTA_L003_R2_001.fastq.gz Ath_tae_CTTGTA_L003_R2_008_cleaned.fastq ILLUMINACLIP:adapters.fa:2:7:7 TRAILING:20 MINLEN:50
После очистки был сделан контроль качества нового файла. (Посмотреть)
В результате, в очищеном файле осталось 3892659 из 4000000. Сравнив графики Per base sequence quality, можно сказать, что разброс длин последовательностей уменьшился. Теперь качество чтений находится в "зелёной" зоне.На графиках, иллюстрирующих содержание различных нуклеотидов в ридах (Per base sequence content) изменений почти не произошло. Графики длины ридов (Sequence Length Distribution) изменились значительно. По графику исходного файла понятно, что все чтения имеют длину 101 нуклеотид, об этом также написано в Basic Statistics. График файла прошедшего обработку показывает, что большая часть ридов не изменило своей длины. Однако также встречается небольшое количество чтений с длиной от 50 нуклеотидов (те, что > 50 были удалены).

© Амосова Алена. 2013 год