Сборка de novo

Архив с чтениями был скачан с помощью команды wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240360/SRR4240360.fastq.gz

1. Подготовка чтений программой trimmomatic

Сначала в рабочую директорию были скопированы адаптеры с помощью следующей команды:

cp /mnt/scratch/NGS/adapters/* .

Далее скопированные файлы NexteraPE-PE.fa TruSeq2-PE.fa TruSeq2-SE.fa TruSeq3-PE-2.fa TruSeq3-PE.fa TruSeq3-SE.fa были собраны в один файл:

cat *.fa >> all_adapters.fa

Затем возможные остатки адаптеров были удалены посредством команды:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240360.fastq.gz reads_without_adapters.fastq.gz ILLUMINACLIP:all_adapters.fa:2:7:7 2> removing_adapters.txt

На выходе были получены чтения, составляющие 99.49% от исходных, соответственно 0.51% последовательностей было удалено.

Далее с правых концов чтений были удалены нуклеотиды с качеством ниже 20 и были оставлены только такие чтения, длина которых не меньше 32 нуклеотидов.

java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 reads_without_adapters.fastq.gz reads_complete.fastq.gz TRAILING:20 MINLEN:32 2> results.txt

Было удалено 3.62% чтений.

Вес исходного файла: 202843525 байт

Вес файла после удаления адаптеров: 201803840 байт

Вес файла после чистки: 192395357 байт

2. Подготовка k-меров длины 31

Посредством представленной ниже команды была создана директория kmer с файлами Log, Roadmaps, Sequences.

velveth kmer 31 -fastq -short reads_complete.fastq.gz

3. Сборка на основе k-меров

После запуска программы velvetg и посредством сортировки sort -nk 2 stats.txt было выяснено значение N50 = 43070 и составлена таблица:

Table 1. Самые длинные контиги
ID длина покрытие
1 113474 33.525460
5 83603 33.646065
4 64155 35.847323

4. Анализ

Файлы с последовательностями контигов были получены командой вида seqret contigs.fa:NODE_1_* seq1.fasta

Далее с помощью программы megablast каждый из трёх самых длинных контигов был сопоставлен с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Picture 1. Contig 1
Picture 2. Contig 4
Picture 3. Contig 5
Table 2. Dot Plot
координаты участка хромосомы, соответствующего контигу процент идентичности число гэпов как именно он "ложится" на банковский геном?
450К-550К 17687/21720 (81%) 543/21720 (2%) контиг лег только на небольшую часть хромосомы (450К-550К), видны невыровненные участки на 460К и 480К соотвественно
0-50К и 628К-650К 7222/9216(78%) 242/9216(2%) часть выравнивания показана в левой части графика, часть - в правой, что объясняется кольцевой структурой хромосомы, видны достаточно большие разрывы на уровнях 20К, 30К, 630К
100К-180К 9755/13014(75%) 556/13014(4%) виден достаточно большой разрыв 110К-130К и маленькие далее