Подготовка чтений к сборке

Удаляем остатки адаптеров иллюмины программой trimmomatic с параметрами:

SE -threads 8 -trimlog trimlog.txt -phred33 SRR4240358.fastq.gz SRR4240358_trimmed.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7

Удаляем некачественные нуклеотиды на концах ридов:

-threads 8 -trimlog trimlog2.txt -phred33 SRR4240358_trimmed.fastq.gz SRR4240358_trimmed_2.fastq.gz TRAILING:20 MINLEN:32

При помощи анализа программой fastqc получаем размеры и состав файлов с последовательностями:

Исходник: 10543839 ридов - 470 Мб

После удаления остатков адаптеров: 10368884 ридов - 463 Мб

После удаления триммирования некачественных нуклеотидов и удаления слишком коротких ридов: 8016437 ридов - 341 Мб

Как можно посчитать, остатки адаптеров составляли 1,66% от исходного, последовательности неудовлетворительного качества - 25,33%. Это очень много. Качество исходного материала можно оценить как "очень плохо, но использовать можно". Это же подтверждает и общий график качества от fastqc:

Сборка de novo

Результаты взяты из pangenome.info

Создаем к-меры длиной 31 и помещаем их в папку kmers31 командой velveth:

velveth kmers31 31 -fastq.gz SRR4240358_trimmed_2.fastq.gz -short

Проводим сборку командой velvetg:

velvetg kmers31 &> result.log

Изучая лог-файл, файл со статистикой и fasta-файл с контигами получаем:

N50: 8600

Номер контига Длина Покрытие
56 19821 29,476
34 18714 29,923
40 16436 30,794

Насчет контигов с аномальным покрытием удалось заметить интересную особенность: существует 17 контигов покрытием менее 2, самый длинный из которых - номер 333, длины 31. Далее идет резкий скачок в покрытии и все следующие контиги уже имеют его более 10.

Megablast крупных контигов на хромосому

Контиг №56

Сопоставляется с хромосомой 3 сегментами:

500370-508806

Сходство 6516/8617(76%), гэпы 351/8617(4%)

510438-514772

Сходство 3577/4393(81%), гэпы 77/4393(1%)

496111-500325

Сходство 3256/4324(75%), гэпы 154/4324(3%)

Последовательность записана прямо, инверсий нет

Контиг №34

Сопоставляется с хромосомой 6 сегментами:

8599-11103

Сходство 1977/2525(78%), гэпы 50/2525(1%)

13994-14465

Сходство 392/478(82%), гэпы 9/478(1%)

14727-17919

Сходство 2450/3225(76%), гэпы 86/3225(2%)

17962-20171

Сходство 1896/2220(85%), гэпы 30/2220(1%)

20358-22183

Сходство 1509/1851(82%), гэпы 51/1851(2%)

23067-26764

Сходство 2933/3779(78%), гэпы 140/3779(3%)

Последовательность записана прямо, инверсий нет

Контиг №40

Сопоставляется с хромосомой 2 сегментами:

467412-474242

Сходство 5343/6961(77%), гэпы 204/6961(2%)

462496-467421

Сходство 3861/5015(77%), гэпы 162/5015(3%)

Последовательность записана в обратном порядке, инверсий нет