Практикум 14. Сборка генома de novo

1.Подготовка чтений программой trimmomatic.

команда вход выход Что делает команда Характеристики подготовки
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240356.fastq outtrim.fastq ILLUMINACLIP:adapters.fa:2:7:7 сырые чтния в файле SRR4240356.fastq, адаптеры сложенные в 1 файл adapters.fa чтения с вырезанными адаптерами outtrim.fastq удаляет адаптеры с ридов было чтений 7511529 , стало чтений 7358424 (удалено 153105)
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 outtrim.fastq outtrim_short.fastq SLIDINGWINDOW:30:20 outtrim.fastq чтения с вырезанными адаптерами outtrim_short.fastq чтения очищенные от адаптеров и нуклеотидов низкого качества сканирует чтения окном длинной 30 нукл, удаляет плохие буквы чье качество ниже 20 с концов чтений удалено -238470 чтений;
в общем удалено: 391575      
размер файла до чистки 793999866      
размер файла после чистки: 749258208      
размер отличается на 44741658 байт      

2.Подготовка k-меров

velveth velveth.dir 29 -fastq outtrim_short.fastq -short velveth.dir директория куда направляется весь выход очищенные риды outtrim_short.fastq располагает риды по порядку "получилось три файла Log Roadmaps Sequences
в log прописывается версия."

3. Сборка на основе k- меров

velvetg velveth.dir velveth.dir директория с выходом команды, которая нарезает к-меры  
N50 73133  
3 самых длиных контига    
7 115468 52.217359
19 106076 45.970578
8 75082 54.507059
   
описание аномально больших или малых покрытий    
типичное покрытие 634,8946654  
1 покрытие длина id
358 300,00 1 497
2 1,74 19 121

4. Анализ.

Dot Matrix View самого длинного контига

1. нач кон
координаты 478095 584329
хар-ка выравниваний (было 17 шт)данные приведены для 1 гэп число различий
545 4026
Хар-ка полного выравнивания Покрытие контига процент индентичности вычисленное число различий
73 81 16015 пар оснований
как ложиться число совпадений на картинке видно что ложится ровно. Есть выпавшие участки. самый большой выпавший участок это примерно 500 нуклеотидов
17 количество больших выпавших кусков 8

Dot Matrix View второго по длине контига

2. нач кон
координаты 248967 349674
хар-ка выравниваний (20 шт) данные приведены для первого гэп число различий
94 719
Хар-ка полного выравнивания Покрытие контига процент индентичности вычисленное число различий
68 79 15148 пар оснований
как ложиться число совпавших участков на картинке видно что есть выпавшие участки, максимальный выпавший участок это 700 пар нуклеотидов
20 общее количество внушительных выпавших кусков 11

Dot Matrix View третьего по длине контига

3. нач кон
координаты 2004 621055
хар-ка выравнивания одного гэп число различий
252 1992
харка полного выравнивания Покрытие контига процент индентичности вычисленное число различий
73 83 9317
как ложиться число совпавших участков на картинке видно что контиг поделился на две примерно одинаковые части, а значит алгоритм сборки de nova дал сбой и соединил не нужные учистки.
13 ну или же организм откуда проба-мутант (но это маловероятно)
  количество больших выпавших участков: 7
  максимальная длинна выпавшего участка 300-400 нуклеотидов (смотрим по нижнему куску выровненного гэпа)

Учебная почта


© Бердникович Екатерина, 2017