Сборка генома de novo.
1. Подготовка чтений программой trimmomatic.
Так как у меня не было индивидуального кода доступа к проекту по секвенированию бактерии Buchnera aphidicola, пришлось использовать код, приведенный в примере задания - SRR4240381.
Скачанный архив с прочтениями был распакован командой gunzip в папку /nfs/srv/databases/ngs/morozova_ea. Адаптеры для Illumina собраны в файлах в директории /P/y15/term3/block4/adapters. Для удобства они были объединенны в один файл adapters.fasta командой
cat /P/y15/term3/block4/adapters/*fa >> /nfs/srv/databases/ngs/morozova_ea/adapters.fasta
Далее были удалены возможные остатки адаптеров с помощью команды
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240381.fastq srr381_out.fastq ILLUMINACLIP:adapters.fasta:2:7:7Далее с концов чтений были удалены плохие буквы, оставлены только чтения не менее 30
java -jar /usr/share/java/trimmomatic.jar SE -phred33 srr381_out.fastq trimm381.out TRAILING:3 MINLEN:30
(MINLEN:30 – прочтения короче 30; TRAILING:3 — нуклеотиды не ниже качества «3» с конца прочтений)
После чистки из 13 710 994 ридов осталось 13 686 741: удалено 24 253 ридов, что составляет всего лишь 0,18% от изначального числа. Результаты анализа качества ридов с помощью команды fastq *filename* представлены в таблице ниже.
Сравнительная характеристика ридов До чистки После чистки Общая статистика Качество п.н. в ридахПолученные файлы SRR4240381_fastqc.html и trimm_fastqc.html.
2. Работа с программой velvet.
Программа velveth осуществляет сборку генома из коротких последовательностей с помощью графов де Брайна.
Для подготовки k-меров длиной 29 была использована команда
velveth k_mer 29 -fastq -short trimm.out,
где k_mer - название папки для записи выходных файлов. Длина k-меров равна 29, -short задает параметр того, что чтения короткие и непарные, -fastq, что входные файлы задаются в соответствующем формате. Входной файл trimm.fastq содержит очищенные чтения.Де факто: программа не захотела работать с к-мерами длиной даже 28, в итоге сторговались на 27.
Сборка на основе k-меров программой velvetg. Получено два файла: с контигами — contigs.fa, и со статистикой – stats.txt.
Итоговое число узлов графа (контигов) — 11 925. N50 (bp) – 663.
Характеристики трех самых длинных контига. ID Длина Покрытие 1122 384
77.183747
2221 949
61.502848
1515 760
63.465736
Контиги с аномально большим покрытием:
Анализируя данные из файла stats.txt, нетрудно заметить, что аномально большим покрытием обладают в основном контиги длиной от 1 до 3 (30-90 пн).
Принимая за стандартное покрытие величину 9 (медиана) аномально больших покрытий достаточно много.
С помощью программы megablast сделаем выравнивание 3-х самых больших контигов и одного с аномально длинным покрытие относительно хромосомы Buchnera aphidicola (CP009253.1). NB: Выравнивание для контига длиной 1 с аномально большим покрытием не рассматривается, так как это бессмыслено. Для контига с аномально длинным покрытием был использован алгоритм blastn, так как megablast не смог найти схожих последовательностей.
Характеристики выравнивания контигов с хромосой Buchnera aphidicola |
||||||
---|---|---|---|---|---|---|
ID |
Контиг |
Расположение на хромосоме |
Query cover |
Identity |
E-value |
Выравнивание |
11 |
|
64% |
80 % |
0.00 |
||
22 |
|
53% |
77% |
0.00 |
||
15 |
|
70% |
78% |
0.00 |
||
4155 |
Не рассматриваем, так как значение e value слишком высокое. |
12% |
100% |
2.00 |