Анализ качества и очистка чтений

Анализ качества чтений

Для выполнения данного задания был скачан файл с чтениями генома резуховидки Arabidopsis thaliana. Он был обработан с помощью программы FastQC. Результат обработки представлено по ссылке.

Очистка чтений

С помощью программы Trimmomatic была произведена очистка чтений. Были удалены последовательности адаптеров, с конца каждого прочтения были убраны нуклеотиды с качеством ниже 20, из полученных результатов оставлены были только прочтения длинои? не меньше 50 нуклеотидов. Команды, использованные для этого (а также для других частей задания), приведены по ссылке. Поскольку согласно мануалу Trimmomatic самостоятельно распознает форматы fastq, этот параметр не вкючался в команды. Trimmomatic распознал формат чтения как phred33.

Затем полученные чтения были проанализированы программой FastQC. Результат приведен по ссылке.

Сравнение результатов FastQC

Из 2439795 начальных чтений после обработки Trimmomatic осталось всего 2334007 (удалено 105788 чтений).

Поскольку от всех начальных чтений были отрезаны последние нуклеотиды, если они имели низкое качество, в итоге среднее значение качества для хвостовых нуклеотидов выросло, что отражено в разнице в графиках Per base sequence quality. Кроме того уменьшился разброс в значениях качества большинства нуклеотидов. Это вызвано удалением некоторого числа последовательностей и отрезанием низкокачественных нуклеотидов.

Изначально все чтения имели длину 101 нуклеотид. Как видно из графиков Sequence length distribution, после обработки Trimmomatic появился разброс в длине чтений. Большая часть по прежнему длины 101, но также есть последовательности длины 50-100 нуклеотидов, причем чем больше длина, тем больше последовательностей такой длины. Это вызвано обрезанием низкокачественных нуклеотидов и тем, что оставили только чтения длины 50 и больше.

Графики Per base sequence content очень похожи визуально. Что логично, так как они составлялись по примерно одинаковому числу чтений (>2000000), а после обработки Trimmomatic состав чтений слабо изменился, так как было выкинуто лишь небольшое число низкокачественных чтений, вносящих небольшие помехи.

© Маслова Валентина, 2014
Последнее изменение: 01.12.2014