Практикум 14. Сборка генома de novo


1. Подготовка чтений программой trimmomatic

Команды:

java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240360.fastq cutada.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Убирает из файла SRR4240360.fastq все адаптеры (адаптеры лежат в adapters.fasta) и записывает чтения без адаптеров в cutada.fastq.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 cutada.fastq cutada_2.fastq SLIDINGWINDOW:10:20 Удаляет плохие буквы с концов чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 cutada_2.fastq cleaned.fastq MINLEN:30 Удаляет чтения длиной меньше 30 нуклеотидов
grep -c @ cutada.fastqСмотрит, сколько чтений было до чистки: 8722538
grep -c @ cleaned.fastqСмотрит, сколько чтений стало: 8294738


2. velveth, velvetg



Команды:

velveth velveth/ 29 -fastq -short cleaned.fastq Готовит k-меры длины k=29, выходные файлы помещает в папку velveth/.
velvetg ./Сборка на основе k-меров

N50=67095

КонтигДлинаПокрытие
1 самый длинный9495643.61
2 самый длинный7030549.28
3 самый длинный7030041.95
Аномально маленькое покрытие41.5 (а среднее: 39,81)
Аномально большое покрытие1148191


3. Анализ

С каждым контигом получилось очень много выравниваний, поэтому координаты участка хромосомы и соответствующие координаты контига и характеристики выравниваний - прямо в таблице из бласта.


Контиг длины 94956Контиг длины 70305Контиг длины 70300
Получилось 20 выравниваний. Контиг ложится на обратную цепь хромосомы (что видно по наклону линии на матрице). Между выравниваниями довольно большие промежутки. 13 выравниваний, контиг ложится на прямую цепь. Хромосома - кольцевая, контиг захватил место начала ее картирования (оно же начало репликации, наверное), и поэтому такой большой разрыв. 14 выравниваний, контиг ложится на обратную цепь.
Таблица Таблица Таблица



© Belousova Evgenia, 2018