Сборка de novo
Сборка конгигов без использования референса пакетом velvet
Выделение k-меров: velveth chr5 31 -fastq -short chr5-trimmed.fastq
Сборка контигов: velvetg chr5
Контигов получено - 295, самый длинный контиг - 2368 bp, N50 = 260.
Для k=25: 308 контигов, N50 - 286, max - 2368 bp
Для k=19: 319 контигов, N50 - 291, max - 2368 bp
Длина самого большого контига не изменяется, N50 растет с уменьшением k.
Сравнение полученных контигов с последовательностью хромосомы
Команды:
makeblastdb -in chr5.fasta -dbtype nucl -out chr5_db
blastn -query chr5/contigs.fa -db chr5_db -outfmt 6 -out blast.out
Выдача blast по возрастанию количества событий картирования на хромосому одного и того же контига:
Контиги, картировавшиеся единственным образом (отсортирована по меньшей координате, указаны величины разрывов и перекрытия, если они есть):
Для объединения перекрывающихся контигов нужно перекрытие длины k(=31) и больше.
Перекрывающиеся на большую величину контиги, скорее всего, просто отличаются последовательностью (ошибки секвенирования).
Контиги, откартированные несколько раз, видимо, содержат последовательности, часто встречающиеся в геноме.