A picture of DNA should be here

Анализ качества и очистка чтений

1) Первичный контроль качества

Для начала было необходимо сделать анали качества исходных ридов генома Резуховидки Таля. Архив с ридами в формате fasta вы можете скачать здесь . Для этого была запущена программа FastQC.

Результат работы программы вы можете простмотреть здесь

Нетрудно заметить, что имеются серьезные проблемы с Per base sequence content (нуклотидным составом) и Kmer Content (распределением k-меров по ридам). А так же минимальное качество каждого прочтанного нуклеотида в начале и конце последовательности очень низкое.

Это связано с тем, что нуклеотиды на отдельных цепях ДНК в кластере иногда присоединяются с некоторым опозданием или опережением. При накоплении таких сдвигов в фазах, секвенатору трудно обрабатывать цветовой сигнал, в конце прочтения качество ухудшается.

У рестриктаз, используемых для получения маленьких фрагментов ДНК есть определенные предпочтения по сайтам рестрикции, поэтому в начале могут быть отклонения по нуклеотидному составу. Видимо, у большинства рестриктаз были предпочтения к АT составу (видно из Per base sequence content). Также наблюдается неравеноство и в GC составе по длине всего рида, что может быть естественной представленностью состава у резуховидки, а может быть связано с ошибками GC состава, которые нередки для Illumina секвенирования.

В ридах наблюдается перепредставленность некоторых kmer. Так как файл с адаптерами не задан, то просмотреть, являются ли они частью последовательности адаптера FastQC не смог и поэтому c Adapter Content все хорошо. Необходимо либо задать этот файл, либо отрезать адаптеры на следующей стадии программой Trimmomatic.

Причина отклонения графика Per sequence GC content может состоять в том, что GC из-за трех водородных связей, которые они образуют стабилизируют структуру ДНК, и, следовательно меньше вероятность того, что участки ДНК будут фрагментированы рестриктазами в месте с большим количеством G и C нуклеотидов. Это создает некую предвзятость в распределении GC по геному. Тогда как для построения предказанной кривой используется случайная выборка.

2) Тримминг

Phred+33, т. к. содержит символы, находящиеся до 64 сиvмвола таблицы ASCII (например ; - 59 символ в десятичной системе счисления) Был создан файл с адаптерами как для SE (одноцепочечного секвенирования), так и для PE (двухчепочечного секвенирования) из адаптеров предсложнной директории /P/y13/term3/block4/adapters. Были отрезаны с конца каждого прочтения нуклеотиды с качеством ниже 20 (TRAILING:20), оставлены только прочтения длиной не меньше 50 нуклеотидов (MINLEN:50) java -jar /usr/share/java/trimmomatic.jar SE -phred33 Ath_tae_CTTGTA_L003_R1_002.fastq.gz Ath_tae_CTTGTA_L003_R1_002_trimmed.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:50

3) Вторичный контроль качества. Результат можете посмотреть здесь

Осталось 3837711 чтений из 4000000

Неравное распределение меду нуклеотидами в начале не улучшилось (на графике Per base sequence content), но перепредставленность k-mer уменьшилась, но к-меров по прежнему много (Kmer Content). Видимо повлияли только отрезанные участки плохого качества. А вот адаптеры не были отрезаны. Это странно. Я предполагаю, что либо адаптеры были уже ранее отрезаны, но очень агрессивно, поэтому кусочки адатпера, представлены только к-мерами и не распознаются, как полноценные адаптеры, либо нуклеотиды плохого качества были отрезаны с начала, что привело бы к аналогичному результату. Еще одной причиной этого, что в предложенных нам файлах нет адаптеров к конретной технологии секвенировани и требуется их более полный список.

На графике Per base sequence quality так же видно, что нуклеотиды плохого качества в конце отрезаны (положение тонкие черные вертикальные полоски сместилось вверх).

Большее содержание GC на протяжении всей длины ридов также не уменьшилось. Это может быть обуслвлено тем, что я писала в п.1. Либо проблема метода.