Сборка de novo.

Задание 1.

В этом задании было необходимо пакетом velvet cобрать из всех чтений своего набора (прошедших очистку) контиги без использования референса. Пакет velvet стоит на kodomo и состоит из двух программ: velveth для выделения k-меров из чтений ("hashing") и velvetg для сборки контигов на основе графа k-меров. Для выполнения этого задания на сервере kodomo я использовал следующие команды:
velveth assembly 31 -fastq -short out.fastq
 
velvetg assembly
Как видно, была взята длина k-мера, равная 31. Получено 618 контигов, N50 = 247, максимальная длина контига - 1392.
 
 
Файл с контигами, полученными программой velvet.
 

Задание 2.

В данном задании было необходимо с помощю программы blast (алгоритм megablast) сравнить полученные программой velvet контиги с последовательностью хромосомы.
С помощью команды makeblastdb -in chr22.fasta -dbtype nucl файл с fasta-последовательностью хромосомы 22 был задан как база данных, командой blastn -db chr22.fasta -query assembly/contigs.fa -outfmt 6 -out contigs.out провёл поиск по заданной БД.
 
 
Результат работы blastn представлен в таблице Excel. В таблице приведены все картировавшиеся контиги, на отдельных листах - контиги, встречавшиеся только один раз, либо множество раз. Список контигов отсортирован в порядке возрастания меньшей координаты по хромосоме. Также для контигов, встретившихся лишь один раз, посчитаны промежутки разрывов между ними, а также определено наличие перекрывания.
Возможно, повторяющиеся контиги - это повторы, тогда количество таких повторов может достигать 4250.
Также встречаются контиги, которые очень сильно перекрываются, к примеру, представленные ниже на скриншоте.  
 
Однако контиги не объединяются, поскольку очень часты полиморфизмы, не позволяющие программе объединить контиги.
 
 
 
Ссылка на главную страницу


© Головачев Ярослав