Учебный сайт Мухалевой Лизаветы

Анализ качества и очистка чтений

Анализ качества чтений

       Для этого задания использовалась программа FastQC. Она установлена на kodomo. Через неё прогонялся этот файл и использовалась следующая команда:
fastqc Ath_tae_CTTGTA_L003_R2_002.fastq

       HTML-файл, который был получен на выходе, можно посмотреть по этой ссылке.

Очистка чтений

       В этом задании очистку скачанных чтений проводили с помощью программы Trimmomatic, которая также установлена на kodomo. Требовалось отрезать с конца каждого прочтения нуклеотиды с качеством ниже 20, оставьте только прочтения длиной не меньше 50 нуклеотидов. В связи с этим была составлена следующая команда:
java -jar /usr/share/java/trimmomatic.jar SE Ath_tae_CTTGTA_L003_R2_002.fastq Ath_tae_CTTGTA_L003_R2_002_cleaned.fastq ILLUMINACLIP:adapters.fa:2:7:7 TRAILING:20 MINLEN:50

       adapters.fa - файл, содержащий адаптеры, которые нужно удалить из последовательностей. Программа определила формат fastqc сама: phred33. Полученный результат можно посмотреть по этой ссылке.

       Полученный файл с обрезанными последовательностями опять пронали через FastQC, на выходе получили следующий отчёт.

       После сравнения полученных отчётов можно сделать несколько заключительных выводов:

  1. Количество чтений от 4 миллионов сократилось до 3844518.
  2. График оценки качества чтений нуклеотидов (Per base sequence quality) значительно изменился: все нуклеотиды находятся в "зелёной" зоне, даже с 90 по 101-ый, которые до этого находились в "красной" зоне.
  3. Графики Per tile sequence quality и Per sequence quality scores не изменились, либо изменились очень незначительно.
  4. График Per base sequence content изменился чуть более заметно, чем предыдущие два, но процент содержания различных нуклеотидов остался всё равно на том же уровне.
  5. График Sequence Length Distribution изменился сильно: на исходном графике видно, что все последовательности имеют длину 101 нуклеотид, на полученном "очищенном" графике видно, что длина последовательностей варьируется от 48 нуклеотидов, хоть большинство и сохранило длину в 101 нуклеотид.
  6. Остальные графики заметных изменений не претерпели.

© Mukhaleva Elizaveta, FBB MSU, 2013
Дата последнего изменения: 22.09.2014

Valid HTML 4.01 Strict Правильный CSS!