Учебный сайт Софроновой Алины
Анализ качества и очистка чтений

        Чтения (риды) - фрагменты ДНК, полученные при секвенировании. Для дальнейшей сборки генома, необходимо проанализировать и очистить эти риды.

        Для этого практикума нам дан файл с чтениями генома резуховидки Arabidopsis thaliana (мойл файл Ath_tae_CTTGTA_L003_R2_005.fastq.gz).

Анализ качества чтений

        Анализ качества производится с помощью программы FastQC. Программа FasqQC стоит на kodomo и вызывается командой fastqc Ath_tae_CTTGTA_L003_R2_005.fastq. Html-версия отчета этой программы представлена здесь.

Очистка чтений

        Следующим шагом необходимо очистить наши риды от последовательностей адаптеров, удалить нуклеотиды с низким качеством, удалить чтения короче определенной длины. Все это можно сделать при помощи программы Trimmomatic. В данном случае я использовала формат fastqc phred33. Тримминг я произвола командой

-jar /usr/share/java/trimmomatic.jar SE -phred33 Ath_tae_CTTGTA_L003_R2_005.fastq Ath_tae_CTTGTA_L003_R2_005_2.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:50,

где ILLUMINACLIP:adapters.fasta:2:7:7 - удаляет последовательности адаптеров, TRAILING:20 - отрезает с конца каждого прочтения нуклеотиды качеством ниже 20, MINLEN:50 - удаляет риды длиной меньше 50.

        Далее была повторна запущена программа FastQC и получена данная html-версия отчета.

        Сравним полученные отсчеты. Если первоначальное количество последовательностей было 4 млн, то сейчас 3850300 (~96%). Изменился и график Per base sequence quality, отвечающий за качество последовательностей ридов (Рис. 1 и 2).

Рис.1. График Per base sequence quality до очистки Рис.2. График Per base sequence quality после очистки

        По графикам видно, что качество последовательностей после очистки увеличилось. Видим, что все последовательности находятся в "зеленой" области. Особенно это отчетливо проявляется для последних ридов.

        Что касается содержания этих последовательностей (график Per base sequence content - Рис. 3 и 4), то оно не изменилось.

Рис.3. График Per base sequence content до очистки Рис.4. График Per base sequence content после очистки

        Незначительно именилось распредение длин чтений (график Sequence length distribution - Рис. 5 и 6). До очистки встречались лишь последовательности длиной 101, после очистки встречаются и риды меньшей длины. Что логично, так как мы отрезали куски последовательностей.

Рис.5. График Sequence length distribution до очистки Рис.6. График Sequence length distribution после очистки


Вернуться к 3 семестру

© Алина Софронова, 2014
Дата последнего изменения: 08.12.2014