|
|||||
|
|||||
Анализ качества и очистка чтений Работа по анализу качества и очистке чтений проводилась для файла Ath_tae_CTTGTA_L003_R2_007.fastq, в котором находятся чтения генома резуховидки. Анализ качества чтенийАнализ качества чтений проводился с помощью программы FastQC. Для запуска данной программы использовалась команда
fastqc Ath_tae_CTTGTA_L003_R2_007.fastq Отчет работы этой программы смотрите здесь. В полученном отчете можно найти следующую информацию об исследуемых чтениях:
Также в отчете содержаться различные графические представления оценки качества чтений. Одно из представлений представлены ниже на рисунке 1А. На нем можно заметить, что качество чтений в середине очень хорошее, а на концах немного хуже. Очистка чтенийДалее была проведена очистка чтений с помощью программы Trimmomatiс. Были удалены последовательности адаптеров (опция ILLUMINACLIP:adapters.fa:2:7:7), нуклеотиды с качеством ниже 20 с конца каждого прочтения (опция TRAILING:20), а также все прочтения длинной меньше 50 нуклеотидов (опция MINLEN:50). В исходном файле использовалась кодировка Sanger / Illumina 1.9, поэтому при запуске программы был выбран phred33 формат. В итоге использовались команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 Ath_tae_CTTGTA_L003_R2_007.fastq Ath_tae_CTTGTA_L003_R2_007_out.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:50 В результате был получен новый файл с чтениями - Ath_tae_CTTGTA_L003_R2_007_out.fastq, для которого снова был проведен анализ качества с помощью FastQC. Отчёт по очищенным чтениям можно увидеть здесь. Теперь сравним два полученных отчета с неочищенными чтениями и с очищенными. Количество чтений среди очищенных уменьшилось до 3 872 176, такое уменьшение можно считать незначительным. Содержание гуанина и цитозина в ридах не изменилось. Также несмотря на то, что теперь длина чтений варьируется от 50 до 101 нуклеотида, среднее значение осталось тем же: 101 нуклеотид (см. график Sequence Length Distribution). На рисунке 1В представлен график качества нуклеотидов (т.е. точность определения нуклеотида в каждой позиции) – это график Per base sequence quality. По сравнению тем же графиком для неочищенных чтений качество нуклеотидов для очищенных сильно не возросло.
В конце концов, из сравнения отчета о качестве неочищенных чтений с отчетом о качестве очищенных чтений можно сделать вывод, что исходные чтения были достаточно качественными. |
|||||
© Alyona Koryagina aakor@fbb.msu.ru
Дата последнего изменения: 29.12.2014 |