Сборка de novo

Скачивание чтений:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz

Создание файла с адаптерами:

cp -r /mnt/scratch/NGS/adapters/ adapters

cat adapters/* > adapters.fasta

Тримминг

TrimmomaticSE -phred33 SRR4240359.fastq.gz trimmed1.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7

Команда отрезает остатки адаптеров. Было выкинуто 55872 (0.41%) чтений.

TrimmomaticSE -phred33 trimmed1.fastq.gz trimmed2.fastq.gz TRAILING:20 MINLEN:32

Уделение с конца нуклеотидов с качеством меньше 20 и удаление чтений длины меньшей, чем 32. Было выкинуто 1317986 (9.76%) чтений.

Сборка

velveth Assem 31 -short -fastq.gz trimmed2.fastq.gz

Программа создает из чтений к-меры длины 31.

velvetg Assem/

Собирает к-меры в контиги. Получившиеся к-меры хранятся в файле contigs.fa. N50 = 70607.

cut -f1,2,6,7 Assem/stats.txt | sort -r -nk2 | head

ID Длина Покрытие
11 125674 44.550949
1 108447 42.009184
14 71403 39.411551
Самые длинные контиги

Контиги с аномально высоким покрытием

ID Длина Покрытие
98 47 139.489365
80 40 109.500000
126 51 91.982140

Контиги с низким покрытием

ID Длина Покрытие
609 31 2.032258
231 63 2.190476
285 64 2.437500

Выравнивание контигов

Выравнивание 11 контига относительно генома Buchnera aphidicola

Была прочитана комплементарная геномной последовательности цепь, координаты выравнивания - 600К-100К.

Выравнивание 1 контига относительно генома Buchnera aphidicola

Прочитана прямая цепь генома, координаты выравнивания - 100К-200К.

Выравнивание 14 контига относительно генома Buchnera aphidicola

Была прочитана комплементарная геномной последовательности цепь, координаты выравнивания - 200К-270К.