Выделение k-меров - команда velveth chr19 31 -fastq -short chr19-trimmed.fastq
Сборка контигов: velvetg chr19
Получено 324 контига
N50 - 284
Самый длинный контиг - 983 bp
Для k=25: 383 контига, N50 - 274, max - 890 bp
Для k=19: 505 контигов, N50 - 322, max - 1130 bp
Похоже, сборка с уменьшением k ухудшается.
Команды:
makeblastdb -in chr19.fasta -dbtype nucl -out chr19
blastn -query contigs.fa -db chr19 -outfmt 6 -out blast.out
Все выданное blast по возрастанию количества событий картирования на хромосому одного и того же контига:
Осторожно, таблица большая
Контиги, картировавшиеся единственным образом: (отсортирована по меньшей координате, указаны величины разрывов и перекрытия, если они есть)
Таблица
Для объединения перекрывающихся контигов, видимо, нужно перекрытие длины k и больше (здесь k=31)
Перекрывающиеся на большую величину контиги, скорее всего, просто отличаются последовательностью (ошибки секвенирования)
Многократно откартированные контиги могут содержать последовательности, часто встречающиеся в геноме (а таких много)