Учебный сайт Дюгая Ильи

Главная

Первый семестр

Второй семестр

Ссылки

Об авторе

Анализ качества и очистка чтений

Анализ качества чтений и их очистка проводились для файла c ридами генома резуховидки Таля (Arabidopsis thaliana) — Ath_tae_CTTGTA_L003_R1_006.fastq. Контроль качества этих чтений был сделан с помощью программы FastQC. Результат можно увидеть здесь.

Далее был сделан тримминг чтений программой Trimmomatic. Адаптеры были перенесены в одну папку, далее помещены в файл adapter.fa.

Для очистки была использована команда:


java -jar /usr/share/java/trimmomatic.jar SE -phred33 in.fastq out.fastq ILLUMINACLIP:adapter.fa:2:7:7 TRAILING:20 MINLEN:50


"Очищенный" файл пропустили через программу FastQC. Отчёт программы можно увидеть здесь.

Изменилось количество ридов (уменьшилось в 1,5 раза) и их длина. Соотношение GC в последовательностях сохранилось.


Сравним отдельно несколько графиков из отчётов программы FastQC.

Качество нуклеотидов отражает график Per base sequence quality. График из двух отчётов представлен на рис. 1. Как видно, качество нуклеотидов немного улучшилось (минимальная оценка качества нескольких нуклеотидов вышла из оранжевой зоны).

Рисунок 1. Графики "Per base sequence quality".
Слева приведён график качества нуклеотидов для чтений из исходного файла, справа — график для уже очищенного файла.

Графики Per base sequence content, которые показывают частоту встречаемости каждого из четырёх нуклеотидов, совершенно одинаковые.

Теперь сравним графики "Sequence length distribution", которые показывают распределение длин ридов. Они представлены на рис. 2. Мы видим, что до улучшения все последовательности имели длину 101, а после — появились ещё и последовательности длиной 50-100 нуклеотидов. Тем не менее, последовательностей длины 100-101 значительно больше, чем всех остальных.

Рис. 2. Графики "Sequence length distribution".
Слева приведён график качества нуклеотидов для ридов из исходного файла, справа — график для уже очищенного файла.

Таким образом, сравнив "улучшенный" и исходный файл, мы можем предположить, что изначально качество чтений было высоким (отчёты программы FastQC схожи).

Дата последнего обновления: 16.02.2015
Copyright © Дюгай Илья, 2014.