Задание 1. Подготовка чтений программой trimmomatic.
Для выполнения данного задания мне был дан код доступа SRR4240383 проекта по секвенированию бактерии Buchnera aphidicola.
[ссылка на него]
На сайте был скачан fastq-архив, после за счет различных манипуляций он был разархивирован
и помещен в рабочую директорию.
Подготовка программой trimmomatic:
° удаление возможных остатков адаптеров и плохих букв с концов чтений(оставляем только чтения длиной не менее 30).
Использованная команда - "java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240383.fastq SRR4240383_trimmed.fastq TRAILING:20 MINLEN:30 ILLUMINACLIP:adapters.fasta:2:7:7".
Файл выхода: SRR4240383_trimmed.fastq
Задание 2.
→ Подготовка k-меров длины k=29 (максимально возможной при нашей длине чтений).
Это необходимо для последующей работы с программой velvetg.
Длина k-мера называется hash_length, чтения в нашем случае короткие и не парные (short).
Использованная команда - "velveth . 29 -short -fastq SRR4240383_trimmed.fastq".
Файлы выхода(были помещены в директорию pr15):
° Sequences
° Roadmaps
° Log
→
Velvetg (сборка на основе k-меров)
Velvetg - это ядро Velvet, которое строит граф де Брейна с возможностью проведения
последующих с ним манипуляций.
Но, хотя velvetg сохраняет некоторые файлы во время процесса, чтобы избежать ненужных пересчетов, параметры не сохраняются от одного прогона к другому.
° Результаты:
Как можно видеть, N50 = 310, то есть контигами длиной не менее 310 п. н. можно покрыть 50% генома, длина наибольшего контига равна 37582.
Другие результаты работы программы:
С помощью функции "grep" был создан список contigs.txt из файла contigs.fa.
Благодаря манипуляциям в Excel были получены следующие данные о трех самых длинных контигах:
[ссылка на таблицу]
° Расппространенное покрытие примерно составляет 30-50. Однако есть и сильно выбивающиеся контиги, причём контигов с очень малым покрытием больше,
чем с очень большим покрытием.
° Построение выравнивания трёх самых длинных контигов с хромосомой исследуемой бактерии (
CP009253.1)
с помощью megablast.
° Для всех выбранных контигов было построено по 1 выравниванию. Ниже приведены фото-отчеты.
° Требовалось построить аналогичные выравнивания для двух контигов с самым большим покрытием.
В данном случае таковыми были контиги #63 (покрытие 606) и #29(покрытие 505).
Для контига 606 megablast ничего не смог построить, как и для контига 505.
Можно предположить, что данные результаты связаны с несовершенством сборщика,потому что megablast предназначен для выравнивания очень похожих последовательностей.