ID: SRR4240358 ( Buchnera aphidicola )
Чтения были скачаны командой: wget "ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz" -O SRR4240358.fastq.gz
Файлы с адаптерами в папке /mnt/scratch/NGS/adapters были объединены в один:
cat /mnt/scratch/NGS/adapters/* > adapters.fasta
Потом с помощью trimmomatic удаляем остатки адаптеров в ридах:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358.fastq.gz SRR4240358_noadapters.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 2> adapters_log.txt
После удаления адаптеров количество чтений уменьшилось с 10543839 до 10368884 (98.34%).
Далее удаление с правых концов чтений нуклеотидов с качеством ниже 20, а также чтений длиной меньше 32 нуклеотидов:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358_noadapters.fastq.gz SRR4240358_trimmed_noadapters.fastq.gz TRAILING:20 MINLEN:32 2> trimming_log.txt
В итоге удалилось 2352447, то есть 22.69% чтений. Размер исходного файла был 470M, после удаление адаптеров он уменьшился на 7М, а потом и до 341M.
Программа velveth формирует k-меры длиной 31 на основе оставшихся ридов (в созданном подкаталоге ./velveth):
velveth ./velveth/ 31 -fastq.gz -short SRR4240358_last.fastq.gz
Исходя из результата работы программы, полученная сборка состояла из 367 контигов, а показатель N50 для нее составил 8630. Длины трёх самых длинных контигов: 16436 (контиг 56), 18714 (контиг 34), 19821 (контиг 40); а им соответствуют следующие покрытия: 30.79, 29.92, 29.47.