Команды:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gzскачиваю архив
seqret -seq /mnt/scratch/NGS/adapters/'*' -outseq adapters.fastaобъединяю последовательности адаптеров
fastqc SRR4240378.fastq.gzполучил страницу с оценкой чтений до обработки
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240378.fastq.gz output.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7удалил адаптеры, они составили 1.8% чтений.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 output.fastq.gz final.fastq.gz TRAILING:20 MINLEN:32fastqc
Cокращение размеров файлов за две очистки: 4420587 - 4338743 - 4154736
velveth kmers_velv 31 -fastq.gz final.fastq.gz -short
создает папку kmers_velv, где хранятся k-меры длины 31
velvetg kmers_velv &> assembly.log
Производит сборку по k-мерам, полученным velveth'ом и записывает основную информацию в log-файл
N50: 7028 нуклеотидов
stats.txtсамые длинные контиги: 8, 57, 15. их длины составили 36746, 19371, 16745 соответственно.