Скачиваю данный мне архив с чтениями:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz
Объединяю файлы с адапетрами для illumina в один файл:
cat /mnt/scratch/NGS/adapters/* > adapters.fa
Удаляю остатки адаптеров:
TrimmomaticSE -phred33 SRR4240378.fastq.gz SRR4240378_trim1.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7 -trimlog trimmomatic1.log
Было удалено 81843 (1.85%) чтений.
После этого удаляю с правых концов чтений нуклеотиды с качеством ниже 20 и оставляю только чтения, длина которых не меньше 32 нуклеотидов:
TrimmomaticSE -phred33 SRR4240378_trim1.fastq.gz SRR4240378_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trimmomatic2.log
Было удалено 184006 (4.24%) чтений.
До очистки размер файла составлял 91M, после первой очистки — 89M, после второй — 84M.
Программа velveth на основе нашего файла подготавливает k-меры длины k=31:
velveth velv 31 -short -fastq.gz SRR4240378_trim2.fastq.gz
Программа velvetg осуществляет сборку на основе k-меров:
velvetg velv
После работы программы были получены контиги с N50=7028.
С помощью команды sort -r -n -k 2 stats.txt | less были найдены три самых больших контига:
Есть контиги с анамольным покрытием (148170, 968, 923, 829 и т.д.) и все они длины 1. Но есть, например, 81-й контиг длины 934 с покрытием 102.7 и 19-й контиг длины 2106 с покрытием 100,5.
Три самых больших контига были картированы на хромосому CP009253 с помощью megablast.