pano

Сборка de novo

Подготовка данных и немного о них)

ID: SRR4240358 ( Buchnera aphidicola )

Чтения были скачаны командой: wget "ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz" -O SRR4240358.fastq.gz

Файлы с адаптерами в папке /mnt/scratch/NGS/adapters были объединены в один:

cat /mnt/scratch/NGS/adapters/* > adapters.fasta

Потом с помощью trimmomatic удаляем остатки адаптеров в ридах:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358.fastq.gz SRR4240358_noadapters.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 2> adapters_log.txt

После удаления адаптеров количество чтений уменьшилось с 10543839 до 10368884 (98.34%).

Далее удаление с правых концов чтений нуклеотидов с качеством ниже 20, а также чтений длиной меньше 32 нуклеотидов:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358_noadapters.fastq.gz SRR4240358_trimmed_noadapters.fastq.gz TRAILING:20 MINLEN:32 2> trimming_log.txt

В итоге удалилось 2352447, то есть 22.69% чтений. Размер исходного файла был 470M, после удаление адаптеров он уменьшился на 7М, а потом и до 341M.

Подготовка k-меров с помощью velveth.

Программа velveth формирует k-меры длиной 31 на основе оставшихся ридов (в созданном подкаталоге ./velveth):

velveth ./velveth/ 31 -fastq.gz -short SRR4240358_last.fastq.gz

Исходя из результата работы программы, полученная сборка состояла из 367 контигов, а показатель N50 для нее составил 8630. Длины трёх самых длинных контигов: 16436 (контиг 56), 18714 (контиг 34), 19821 (контиг 40); а им соответствуют следующие покрытия: 30.79, 29.92, 29.47.

Анализ контигов с помощью BLAST

Рисунок 1. Контиг длиной 19821 картировался тремя участками в прямом направлении,также есть участок в начале контига длиной 947 bp без идентичного в геноме. Координаты участков генома : 496111..500325; 500370..508806; 510438..514772. Идентичность первых двух выравниваний составляет 75-76%, а содержание гэпов 3-4%, для третьего участка: 81% совпадающих оснований и 77 гэпов (1%).

Рисунок 2. Контиг 34 с длиной 18714 картировался шестью участками в прямом направлении. Координаты участков генома: 8599..11103; 13994..14465; 14727..17919; 17962..20171; 20358..22183; 23067..26764. Идентичность разных участков примерна одинаковая около 80%, а содержание генов 1-3%.
Рисунок 3. Контиг 40 с длиной 16436 картировался двумя участками. Координаты участков генома: 462496..467421; 467412..474242. Идентичность для этих участков равно 77%, а содержание гэпов 3%. Так же у него есть особенность: он картирвался на геном в противоположном направлении.