wget 'ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz'
Organism: Buchnera aphidicola str. Tuc7 (Acyrthosiphon pisum)
Instrument Mode: Illumina Genome Analyzer II
Reads type: SE (одноконцевые)
TrimmomaticSE -phred33 ../reads/SRR4240359.fastq.gz output.fq.gz ILLUMINACLIP:adapters.fasta:2:7:7
Результат:
Input Reads: 13557938 Surviving: 13502066 (99.59%) Dropped: 55872 (0.41%)0.41% чтений оказалось остатками адаптеров.
Удаляем нулеотиды с качеством ниже 20 и последовательности длины
меньше 32:
TrimmomaticSE ../reads/SRR4240359.fastq.gz output.fq.gz ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:32
Результат:
Input Reads: 13557938 Surviving: 12184080 (89.87%) Dropped: 1373858 (10.13%)Было удалено 10.13% ридов. Размер файла уменьшился с 445M до 385M
С помощью команды к-меризуем риды:
velveth Assem 31 -short -fastq.gz output.fq.gz
Собираем геном с помощью команды velvetg:
velvetg ./AssemN50 сборки: 70607
Аномально большое покрытие: 1395.000000, 411220.000000 (их длина =1). Аномально маленькое: много контигов с покрытием от 1 до 5. Аномальные числа покрытий объясняются тем, что эти контиги имеют маленькую длниу, которая меньше длины заданного k-мера - 31. При этом они не попадают в contigs.fa.
Разделяем contigs.fa на отдельные fasta-файлы, чтобы получить fasta-файлы контигов:
seqretsplit -filter contigs.fa dir/name.formatСравним три самых длинных контига с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253) в megablast: