Сборка de novo
С помощью команды wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240380/SRR4240380.fastq.gz архив с ридами был установлен в рабочий каталог. Далее с помощью команды cat * > ../arsen/pr15/all-adapters.fa файлы с праймерами были объединены в один.
Затем командой trimmomatic мы триммируем концы ридов, тем самым удаляя праймеры: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq.gz SRR4240380_trimmed.fastq.gz ILLUMINACLIP:all-adapters.fa:2:7:7 &> trimmed.log.
В результате было выброшено 1.88% ридов, соответственно оставлено 98.12%.
Далле фильтр по чтениям с длиной меньше 32, и обрезаем нуклеотиды с качеством меньше 20:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380_trimmed.fastq.gz SRR4240380_filtered.fastq.gz MINLEN:32 TRAILING:20 &> trimmed_filtered.log
В результате было выброшено 1.56% ридов, соответственно оставлено 98.44%. В результате работы программы trimmomatic из исходного файла размером 112 Мб удалось получить файл размером 106 Мб.
С помощью команд velveth с параметром длины k-мера равной 31 и velvetg получаем из чтений контиги. В результате получаем набор контигов с N50 равным 12042. Три самых длинных контига имеют длины 25915 (покрытие 27.4), 23850 (покрытие 24.7) и 23807 (покрытие 25.7). С результатами работы программ можно ознакомиться в файле stats.txt.
Встречается контиг длины 1 с аномально высоким покрытием 701648 (одна буква из области с большим покрытием).
NODE_3
Длина контига: 25915 | координаты на хромосоме: 2004 - 11103, 613658 - 620926, 621055 - 627104 | число однонуклеотидных различий: 4949 | гэпов: 682
NODE_20
Длина контига: 23850 | координаты на хромосоме: 236918 - 247596, 232364 - 236859, 229411 - 232057, 248967 - 252164 | число однонуклеотидных различий: 5065 | гэпов: 686
NODE_23
Длина контига: 23807 | координаты на хромосоме: 573092 - 582686, 584329 - 587055, 593743 - 594099 | число однонуклеотидных различий: 3357 | гэпов: 573