Сборка de novo

Чистка и анализ качества чтений

Для удаления адаптеров создан отдельный файл со всеми адаптерами с помощью seqret. Для оценки качества очистки составлялся отчет fastqc до и после очистки.

Рис. 1. FastQC до и после очистки.

Очистка проводилась командой (удаление адаптеров, удаление концов с качеством ниже 20, минимальная длина 30 bp). Число чтений уменьшилось с 10'543'839 до 8'580'909, удалено 1'962'930. Файл уменьшился с 1.2 Гб до 919 Мб.

java -jar \
/nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE \
-phred33 SRR4240358.fastq cropped.fastq ILLUMINACLIP:adapters.fasta:2:7:7 \
TRAILING:23 MINLEN:30
		    

Сборка

Сборка проводилась командами: Final graph has 698 nodes and n50 of 12287, max 38496, total 661317, using 0/8580909 reads

velveth asmbl 29 -fastq cropped.fastq
velvetg asmbl
		    

Таблица 1. Характеристики сборок
Длина k-меров
25 29
Контиги (Nodes) 8227 698
N50 1576 12'287
Максимальная длина 12'273 38'496

Анализ 3 контигов

Анализировались 3 контига с длинами 38496, 30747, 27984.

Рисунок 2. Node 9, 38'496 п.н., покрытие 36.68. 78% идентичности, покрывает 4% генома с 202'390 по 219'491 нуклеотид
Рисунок 3. Node 6, 30'747 п.н., покрытие 38.85. 78% идентичности, покрывает 3% генома с 153'752 по 166'245 нуклеотид
Рисунок 4. Node 7, 27'984 п.н., покрытие 40.81. 78% идентичности, покрывает 3% генома с 2004 по 26775 нуклеотид

Выравнивания оставляют желать лучшего. Странно, что простой поиск megablast по nr банку дает выравнивания с 99% идентичности с геномом других штаммов. Например, Node 9 выравнивается с Buchnera aphidicola str. 5A 99%.

Плохое выравнивание может быть объяснено плохим качеством ридов или сильной внутривидовой вариативностью бактерии.


© Бушмакин Илья, 2017