ФББ 2013-2014

Анализ качества и очистка чтений

Риды (чтения) - это фрагменты ДНК, выдаваемые секвенатором. В зависимости от качества секвенатора, подготовки пробы и метода секвенирования в ридах содержится какой-то процент ошибок. Анализ качества и очистка ридов - первый этап при сборке любого генома. Затем риды будут собираться в контиги - это фрагмент последовательности, полученный совмещением ридов друг с другом. Контиги в свою очередь будут собраны в скаффолды - это последовательность контигов, для которых известно, что они идут друг за другом.

Анализ качества производится с помощью программы FastQC, который работает с файлами в формате FastQ. FastQ, как и обычные файлы Fasta, содержат в себе какую-то последовательность нуклеотидов, но каждому нуклеотиду там соответствует определённое качество (которое указывает на достоверность). FastQC позволяет быстро оценить качество ридов, представляя его в виде графиков. Также эта программа умеет отслеживать адаптеры, которые пришивают к кусочкам ДНК, чтобы те закрепились на матрице.

Для выполнения задания был скачан файл с ридами, полученными при секвенировании генома Arabidopsis thaliana. Секвенирование проводилось по технологии Illumina. Файл в распакованном виде весит почти гигабайт. Анализ с помощью программы FastQC показал, что риды имеют довольно высокое качество, не было найдено ни одного рида с плохим качеством. HTML отчёт можно посмотреть здесь.

На рисунке 1 представлена общая оценка качества программа FastQC. На этом графике по оси Х откладывается позиция нуклеотида в риде, по оси У - его качество. Анализируются суммарные данные по нуклеотидам в определённых позициях у всех ридов. В зелёную область попадают нуклеотиды с наилучшим качеством, в персиковую - с приемлемым, в красную - с плохим. Синяя линяя показывает среднее значение качества, красная линия внутри каждого бокса - медиану. Как видно из рисунка, качество ридов высокое, достоверность нуклеотидов в каждой позиции довольно высокая.

Рис.1. Оценка качества ридов генома резуховидки с помощью программы FastQC

Также программа позволяет оценить качество целых ридов. График, представленный на рисунке 2, показывает среднее качество ридов. Если пик сдвинут в область с высокими показателями качества (что происходит в нашем случае), то это значит, что риды хорошие и вполне достоверные.

Рис.2. Среднее качество ридов

Ещё одна возможность программы - оценить количество адаптеров, которые были отсеквенированы вместе с последовательностью (это понижает качество ридов). В данных мне ридах адаптеров не обнаружено, что демонстрирует рисунок 3.

Рис.3. Количество адаптеров

Повысить качество ридов помогает программа Trimmomatic. Она удаляет адаптеры из fastqc файла, позволяет убрать риды, которые короче определённой длины (короткие риды не несут полезной информации) и оставить только риды лучшего качества. Для запуска Trimmomatic на кодомо я использовала следующую программу:

 
	java -jar /usr/share/java/trimmomatic.jar SE Ath_tae_CTTGTA_L003_R1_004.fastq.gz trim.fastq 
	ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:50
	

Формат fastqc программа способна определить сама (здесь это phred33). В командной строке также была показана статистика работы программы: в итоге от начальный 4000000 ридов осталось 3853095 (96,45%), остальные были удалены. Последовательности адаптеров, которые вырезали, были собраны мной в файл adapters.fasta из файлов директории /P/y13/term3/block4/adapters.

Теперь для очищенного файла запустим программу FastQC, отчёт в виде html можно посмотреть здесь . На рисунке 4 приведена оценка качества ридов, проведённая после очистки. Как видно из рисунка, разброс между самым высоким и самым низким качеством сократился, особенно сильно это заметно для последних позиций (по сравнению с рис.1).

Рис.4. Качество ридов после очистки программой Trimmomatic.