Сборка de novo

Сборка конгигов при помощи пакета velvet

Выделение k-меров - команда velveth chr19 31 -fastq -short chr19-trimmed.fastq

Сборка контигов: velvetg chr19

Получено 324 контига

N50 - 284

Самый длинный контиг - 983 bp

Для k=25: 383 контига, N50 - 274, max - 890 bp

Для k=19: 505 контигов, N50 - 322, max - 1130 bp

Похоже, сборка с уменьшением k ухудшается.

Сравнение полученных контигов с последовательностью хромосомы

Команды:
makeblastdb -in chr19.fasta -dbtype nucl -out chr19
blastn -query contigs.fa -db chr19 -outfmt 6 -out blast.out

Все выданное blast по возрастанию количества событий картирования на хромосому одного и того же контига:
Осторожно, таблица большая
Контиги, картировавшиеся единственным образом: (отсортирована по меньшей координате, указаны величины разрывов и перекрытия, если они есть)
Таблица

Для объединения перекрывающихся контигов, видимо, нужно перекрытие длины k и больше (здесь k=31)

Перекрывающиеся на большую величину контиги, скорее всего, просто отличаются последовательностью (ошибки секвенирования)

Многократно откартированные контиги могут содержать последовательности, часто встречающиеся в геноме (а таких много)


Моя главная страница
© Sergey Starikov, 2015