Практикум 15. Сборка de novo

Команды:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz
скачиваю архив
seqret -seq /mnt/scratch/NGS/adapters/'*' -outseq adapters.fasta
объединяю последовательности адаптеров
fastqc SRR4240378.fastq.gz
получил страницу с оценкой чтений до обработки
java -jar /usr/share/java/trimmomatic.jar SE -phred33
SRR4240378.fastq.gz output.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7
удалил адаптеры, они составили 1.8% чтений.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 output.fastq.gz final.fastq.gz 
    TRAILING:20 MINLEN:32
fastqc

Cокращение размеров файлов за две очистки: 4420587 - 4338743 - 4154736

velveth kmers_velv 31 -fastq.gz final.fastq.gz -short

создает папку kmers_velv, где хранятся k-меры длины 31

velvetg kmers_velv &> assembly.log

Производит сборку по k-мерам, полученным velveth'ом и записывает основную информацию в log-файл

N50: 7028 нуклеотидов

stats.txt

самые длинные контиги: 8, 57, 15. их длины составили 36746, 19371, 16745 соответственно.

Рисунок. 1. Все три контига имеют E-value=0.0. Высокий вес выравниваний позволяет сделать вывод, что сборка соответствует действительности.
Рисунок. 1. contigs' coordinates on genome: 480k-520k, 570k-590k, 140k-150k for 8,57 and 15 correspondingly.