NGS. De-novo сборка генома
В этом практикуме мы попытаемся de-novo собрать геном. Для этого потренируемся на данных секвенирования эндосимбионтной бактерии гороховой тли Buchnera aphidicola. Чтения были скачаны с сайта EMBL
Подготовка прочтений к сборке включала две стадии триммирования: обрезку адаптеров и отбор по качеству и длине. Файл adapters.fasta получен объединением файлов адаптеров с kodomo.
java -jar /usr/share/java/trimmomatic.jar SE -threads 20 SRR4240361.fastq.gz trimadapt_SRR4240361.fastq.gz ILLUMINACLIP:adapters/adapters.fasta:2:7:7 2> trimadapt.err
(лог-файл)
Адаптерами являлось 34532 (0.47%) последовательностей. Далее почиститим чтения по качеству с конца с порогом 20 и удалим последовательности короче 32, так как для сборки нужно, чтобы из прочтения можно было выделить хотя бы два 31-мера (слова длиной 31):
java -jar /usr/share/java/trimmomatic.jar SE -threads 20 trimadapt_SRR4240361.fastq.gz trim_SRR4240361.fastq.gz TRAILING:20 MINLEN:32 2> trim.err
(лог-файл)
На этом этапе было удалено 403754 (5.58%) последовательностей. До очистки файл весил 193М, после удаления адаптеров - 192М, после полной обработки - 178М.
Для сборки используем пакет программ velvet (velveth и velvetg):
velveth velvet/ 31 -fastq.gz -short trim_SRR4240361.fastq.gz
Здесь velvet/ — директория для сборки, 31 — размер k-мера для построения графа, -short — указание на короткие непарные прочтения.
Далее воспользуемся программой velvetg для сборки генома:
velvetg velvet/
Проанализируем качество сборки. Из лог-файла узнаем N50 = 25683. . Найдем три самых длинных контига и их покрытие. Для этого откроем файл stats.txt в программе Excel и отсортируем по длине (см. таблицу 1):
Таблица 1. Характеристика самых длинных контигов
ID |
Длина |
Покрытие |
6 |
49238 |
26,66 |
2 |
45555 |
26,45 |
34 |
43866 |
23,51 |
Все контиги с аномально большими/малыми покрытиями имееют длину меньше k (31), К сожалению, такие контиги не попадут в файл contigs.fa, т.к. в него попадают только контиги длиной больше или равной максимальной длине k-меров (31).
С помощью grep ">" contigs.fa | wc -l можем посмотреть, что в файле 209 таких последовательностей.
Анализ контигов с помощью megablast