Сборка генома de novo

Практикум №14

Материал работы – чтения, картирующиеся на хромосому Buchnera aphidicola. Референсная последовательность - CP009253. Вы можете скачать файл с ридами SRR4240358 (gzip) и файл референсной последовательности.

Для анализа качества чтений была использована программа FastQC. Команда запуска:
gunzip SRR4240358.fastq.gz
fastqc SRR4240358.fastq


Как вы увидите в разделе сравнения параметров ридов, качество ридов оставляет желать лучшего. Кроме того, необходимо убрать адаптеры секвенатора Illumina. Для этого мною был создан файл adapters.fasta, и с помощью программы Trimmomatic была проведена очистка чтений. Команды:
cat adapters/*.fa > adapters.fasta
java -jar ~/bin/trimmomatic-0.36/trimmomatic-0.36.jar SE -phred33 SRR4240358.fastq SRR4240358.noadapt.fastq ILLUMINACLIP:adapters.fasta:2:7:7
java -jar ~/bin/trimmomatic-0.36/trimmomatic-0.36.jar SE -phred33 SRR4240358.noadapt.fastq SRR4240358.trimmed.fastq TRAILING:20 MINLEN:50


Сравнение исходных и очищенных чтений
Рисунок 1. Выдача программы FastQC с неочищенными ридами
Рисунок 2. Выдача программы FastQC с очищенными ридами

Число чтений до чистки: 10543839;
Число чтений после чистки: 8442610.
Отсеялись все чтения длиной качественной части менее 30. Исходный размер файла с ридами – 1.2 GiB; размер после чистки – 900.7 MiB.
Остальная выдача FastQC имеет незначительные различия; упоминания стоит лишь распределение последовательностей по длине:

Рисунок 3. Распределение длин неочищенных ридов
Рисунок 4. Распределение длин очищенных ридов

Из этой выдачи видно, что длина всех ридов была равна 39 и они часто укорачивались из-за низкокачественных концевых участков, а последовательности длиной менее 30 нуклеотидов выбрасывались.


Сборка генома с помощью Velvet

Команды: velveth assem 29 -fastq -short SRR4240358.trimmed.fastq > velveth.log
velvetg assem -exp_cov 5.0 -min_contig_lgth 58 > velvetg.log

Параметры velveth:
out_folder [assem] – название папки, в которой будет производиться сборка.
hash_length [29] – длина K-мера для графа Де Брайна.
-fastq – формат входного файла – fastq.
-short – короткие непарные риды.
Параметры velvetg:
out_folder [assem] – название папки, в которой будет производиться сборка.
-exp_cov [5.0] – ожидаемое покрытие.
-min_contig_lgth [58] – минимальная длина контига. По умолчанию равна hash_length * 2, понадобится далее для корректного сравнения числа контигов для K-меров длины 25.

Анализ информации

Параметры полученной сборки:
Полученные контиги лежат в файле contigs.fasta.
N50: 13851
Длины трёх самых длинных контигов: 38494, 35250, 30768.
Их покрытия: 36.4, 36.2, 38.5.


Рисунок 5. Матрица сходства контига NODE_9.


Рисунок 6. Матрица сходства контига NODE_33.


Рисунок 7. Матрица сходства контига NODE_6.

Подробные данные по регионам сходств BLASTn представлены в файле nodes.txt.

Отчёт скоро будет дополнен.


© Arsenii Loginovskii, 2016-2018
Лого ФББ