Prediction| Учебный сайт Саши Погорельской

Исходным файлом для задания является файл с чтениями генома Резуховидки. Для оценки качества этих чтений использовалась программа FastQC. Ее отчет можно посмотреть здесь.

Дальше была проведена очистка чтений помощью программы Trimmomatic: были удалены адаптеры, нуклеотиды с плохим качеством с конца каждого прочтения. А потом все прочтения короче 50 букв и вновь проведен анализ качества чтений FastQC. Использовались следующие команды:

fastqc Ath_tae_CTTGTA_L003_R2_003.fastq java -jar /usr/share/java/trimmomatic.jar SE Ath_tae_CTTGTA_L003_R2_003.fastq out.fastq ILLUMINACLIP:adapters.fasta:2:7:7 java -jar /usr/share/java/trimmomatic.jar SE out.fastq out.fastq TRAILING:20 java -jar /usr/share/java/trimmomatic.jar SE out.fastq out.fastq MINLEN:50 fastqc out.fastq

После очистки осталось примерно 3,87 миллионов чтений из 4. Результат анализа программы FastQC можно посмотреть здесь.

В исходном файле были прочтения длины 101 нуклеотид, а в конечном, этот показатель варьируется от 50 до 101, что логично, так как чтения были укорочены, а самые короткие (короче 50) удалены. Среднее качество последнего нуклеотида сильно выросло, это видно на графике Per base sequence quality.

Что касается частоты встречаемости букв на каждой позиции (Per base sequence content), то в отличие от сглаженного графика в первом случае, наблюдается большее количество пиков на последних позициях. Это связано с уменьшением количества длинных чтений, то есть с увеличеснием статистической погрешности вычислений. В целом же, тенденция сохранилась, аденин и тимин встречаются практически в 2 раза чаще на всех позициях в чтениях.