Сборка генома de novo

Задание 1. Подготовка чтений программой trimmomatic

Input Output Программа Что делает
SRR4240357.fastq (weight=1563M), adapters.fasta (weight=) task1.fastq (weight=2408M) java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357.fastq task1.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Удаляем возможные остатки адаптеров, предварительно подготовив файл adapters.fasta с помощью команды cat *.fa > /nfs/srv/databases/ngs/sofyabruman/adapters.fasta

Ридов было: 8098979
Ридов стало: 7937658 (98.01%)
Ридов убрано: 161321 (1.99%)
task1.fastq (weight=2408M) task1.1.fastq (weight=3251M) java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 task1.fastq task1.1.fastq MINLEN:30 Удаляем чтения длины менее 30;

Ридов было: 7937658
Ридов стало: 7913995 (99.70%)
Ридов убрано: 23663 (0.30%)

Задание 2. Подготовка k-меров программой velveth

Была использована следующая команда:
$ velveth task2.fastq 29 -fastq task1.1.fastq -short
task2.fastq - output-директория, содержащая в себе несколько файлов:
Log, Rodmaps и Sequences

Задание 3. Сборка генома программой velvetg

Была использована следующая команда:
$ velvetg task2.fastq N50: 22292
Max contig length: 73570

Задание 4. Анализ полученных контигов

Таблица по трем самым длинным контигам

Contig ID Length E-value % Identity Gaps / % Chains Chr start Chr end Part chr length Coverage
4 73570 0.0 77 186/7429(2%) +/- 283834 357425 73592 40.949490
3 39816 0.0 73 461/9822(4%) +/- 563744 603583 39840 45.481264
1 30625 0.0 74 275/6152(4%) +/+ 50035 80867 30653 46.855706

Комментарии

На рисунке по оси х распологается query - CP009253.1 (референсная хромосома), по оси y - контиги.


Участок контига 4 достаточно хорошо выравнивается на референсную хромосому;
Цепи не соответствуют друг другу по направлению, что можно видеть из приведенного выше рисунка.
Это может быть связано с тем, что произошла инверсия (но мы не можем точно говорить об этом, так как в процессе
сборки цепь определяется случайным образом). Целостность соответствия не совсем полная.


Ситуация аналогична первой. Цепи опять же не сопадают по направлению. Видны достаточно крупные разрывы у контига 3 в районе 20-25К и 30-35К bp.


По рисунку, приведенному выше, мы видим, что цепи референса и нашего контига, однонапрвленные
Так же, как и в остальных случаях, мы видим разрывы участков соответствия контига 1 участку
бактериальной хромосомы

Среднее значение параметра % Identity равно 74.67 %
E-value = 0.0 во всех трех контигах
Так, мы можем сказать, что геном собран относительно хорошо.

© Бруман Софья, 2018