Для того чтобы собрать геном de novo скачаем из ENA чтения из проекта по секвенированию бактерии Buchnera aphidicola str. Tuc7 (Acyrthosiphon pisum) с AC SRR4240358 (команда: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz).
Далее для подготовки чтений используем программу trimmomatic, т.е. сначала удалим адаптеры (1), а потом удалим с правых концов чтений нуклеотиды с качеством ниже 20 и оставим чтения, длина которых не меньше 32 нуклеотидов.
- java -jar /usr/share/java/trimmomatic.jar SE SRR4240358.fastq.gz trimmed_SRR4240358.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fasta:2:7:7
- java -jar /usr/share/java/trimmomatic.jar SE trimmed_SRR4240358.fastq.gz trimmed2_SRR4240358.fastq.gz -trimlog trim2.log TRAILING:20 MINLEN:32
В результате после запуска первой команды(1) отсеялось 174955 (1.66%) прочтений и файл уменьшился на 7МБ (с 470МБ до 463МБ). После запуска второй команды отсеялось 2352447 (22.69%) прочтений.
Запуск программы velvet
С помощью команды velveth мы моздаем k-меры указанной длины, а с помощью команды velvetg мы уже собраем геном на основе созданных k-меров:
- velveth kmers 31 -fastq.gz trimmed2_SRR4240358.fastq.gz -short
- velvetg kmers &> assembly.log
Результат сборки
N50 сборки равен 8600. Также с помощью excel контиги были отсортированы по длине и найдено значение среднего покрытия. C excel-файлом можно ознакомиться по ссылке. Среднее значение покрытия равно 39,439.