Сборка генома de novo

Использованные команды

Для создания файла со всеми адаптерами adapters.fasta я использовал скрипт

Для удаления программой trimmomatic остатков адаптеров была использована команда
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359.fastq.gz noadap.fq ILLUMINACLIP:adapters.fasta:2:7:7

Для обрезания прочтений по качеству я использовал команду
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359.fastq.gz trimmed.fq TRAILING:20 MINLEN:32

Синтаксис команды velveth:
velveth 31mers 31 -fastq.gz trimmed.fq -short

Синтаксис команды velvetg:
velvetg 31mers

В исходном файле было 13557938 чтений, после удаления адаптеров осталось 13502066, а после обрезки по качеству - всего 12184080. Таким образом, на адаптеры пришлось 0,41% прочтений, а размер файла после очистки уменьшился с 1,4Гб до 1,2Гб

В файле stats.txt есть контиги очень маленькой длины (вплоть до нескольких нуклеотидов), не вошедшие в файл contigs.fa, и имеющие сильно различающееся покрытие (в том числе аномально большое, более 100, и аномально малое, менее 10). Покрытие крупных контигов, в свою очередь, не сильно разнится и находится в районе 40

Результаты megaBLAST

Параметры сборки:
-N50: 70607 bp
-первый (по длине) контиг: 125674 bp, покрытие 44,55
-второй (по длине) контиг: 108447 bp, покрытие 42,01
-третий (по длине) контиг: 71403 bp, 39,41

MEGAblast по базе данных nr/nt для Buchnera aphidicola показал, что наиболее близким штаммом для всех трёх контигов является Tuc7, симбионт гороховой тли Acyrthosiphon pisum

Первый контиг лёг на участки с 612942 по 641895 нуклеотиды и с 1 по 96755 нуклеотиды генома (попал на точку "разрыва" кольцевого генома в записи), на минус-цепь, с 7 гэпами и с различием в 13 позициях.
Второй контиг лёг на участок с 96741 по 205225 нуклеотид плюс-цепи генома, с 8 гэпами и 12 несовпадениями.
Третий контиг лёг на участок с 205198 по 276630 нуклеотиды минус-цепи генома, без гэпов и с 1 заменой