С помощью команды cat /mnt/scratch/NGS/adapters/* > adapters.fa
создаем файл со всеми адаптерами из указанной директории. Далее с помощью программы trimmomatic
удаляем возможные остатки адаптеров.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358.fastq.gz SRR4240358_without_adapters.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 &> trimmomatic.log
В результате работы программы было отсеяно 174955 чтений из 10543839 (1.66%).
С помощью следующей команды мы отберем чтения длиной больше 32 и уберем у них справа нуклеотиды с качеством меньше 20 :
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358_without_adapters.fastq.gz SRR4240358_selected.fastq.gz MINLEN:32 TRAILING:20 &> trimmomatic_2.log
В итоге было дополнительно убрано 101759 (0.98%) чтений. В результате работы программы trimmomatic из исходного файла размером 492 Мб удалось получить файл размером 430 Мб.
С помощью программ velveth (берем длину k-мера равную 31) и velvetg получим из чтений контиги. В результате работы программ получаем набор контигов с N50 равным 8630. Три самых длинных контига имеют длины 19821 (покрытие 29.6), 18714 (покрытие 30.0) и 18283 (покрытие 30.0). С результатами работы программ можно ознакомиться в следующих файлах: stats.txt и stats.fasta
Встречаются контиги с аномально высоким или аномально низким покрытием, например, у контига длиной 60 (NODE_18) покрытие составляет 414, у другого контига длиной 109 (NODE_210) покрытие составило 4.68.
Сравним трм самых длинных контига (NODE_31, NODE_34, NODE_56, смю файл contigs.fasta) с хромосомой Buchnera aphidicola.
Длина контига: 19821
Координаты на хромосоме: 500370 - 508806, 510438 - 514772, 496111 - 500325
Число однонуклеотидных различий: 3401
Число гэпов: 584
Длина контига: 18744
Координаты на хромосоме: 17962 - 20171, 23067 - 26764, 14727 - 17919, 8599 - 11103, 20358 - 22183, 13994 - 14465
Число однонуклеотидных различий: 2537
Число гэпов: 384
Длина контига: 18313
Координаты на хромосоме: 584329 - 587055, 597483 - 598215, 593743 - 594099
Число однонуклеотидных различий: 770
Число гэпов: 167