Сборка de novo

Задание 1. Подготовка чтений программой trimmomatic.


Для выполнения данного задания мне был дан код доступа SRR4240383 проекта по секвенированию бактерии Buchnera aphidicola. [ссылка на него]
На сайте был скачан fastq-архив, после за счет различных манипуляций он был разархивирован и помещен в рабочую директорию.
Подготовка программой trimmomatic:
° удаление возможных остатков адаптеров и плохих букв с концов чтений(оставляем только чтения длиной не менее 30).
Использованная команда - "java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240383.fastq SRR4240383_trimmed.fastq TRAILING:20 MINLEN:30 ILLUMINACLIP:adapters.fasta:2:7:7".
Файл выхода: SRR4240383_trimmed.fastq





Задание 2.


→ Подготовка k-меров длины k=29 (максимально возможной при нашей длине чтений).
Это необходимо для последующей работы с программой velvetg.
Длина k-мера называется hash_length, чтения в нашем случае короткие и не парные (short).
Использованная команда - "velveth . 29 -short -fastq SRR4240383_trimmed.fastq".
Файлы выхода(были помещены в директорию pr15):
° Sequences
° Roadmaps
° Log
Velvetg (сборка на основе k-меров)
Velvetg - это ядро Velvet, которое строит граф де Брейна с возможностью проведения последующих с ним манипуляций. Но, хотя velvetg сохраняет некоторые файлы во время процесса, чтобы избежать ненужных пересчетов, параметры не сохраняются от одного прогона к другому.
° Результаты:

Как можно видеть, N50 = 310, то есть контигами длиной не менее 310 п. н. можно покрыть 50% генома, длина наибольшего контига равна 37582.
Другие результаты работы программы:
С помощью функции "grep" был создан список contigs.txt из файла contigs.fa.
Благодаря манипуляциям в Excel были получены следующие данные о трех самых длинных контигах: [ссылка на таблицу]



° Расппространенное покрытие примерно составляет 30-50. Однако есть и сильно выбивающиеся контиги, причём контигов с очень малым покрытием больше, чем с очень большим покрытием.
° Построение выравнивания трёх самых длинных контигов с хромосомой исследуемой бактерии (CP009253.1) с помощью megablast.
° Для всех выбранных контигов было построено по 1 выравниванию. Ниже приведены фото-отчеты.







° Требовалось построить аналогичные выравнивания для двух контигов с самым большим покрытием. В данном случае таковыми были контиги #63 (покрытие 606) и #29(покрытие 505). Для контига 606 megablast ничего не смог построить, как и для контига 505. Можно предположить, что данные результаты связаны с несовершенством сборщика,потому что megablast предназначен для выравнивания очень похожих последовательностей.