Сборка генома de novo

Buchnera aphidicola - представитель грамм-отрицательных бактерий, ведущий эндосимбионтный образ жизни. Их хозяевами являются гороховые тли. Подобный образ жизни привёл к утрате некоторых генов. В этом практикуме будет решаться задача сборки de novo генома этой бактерии из одноконцевых чтений, полученных по технологии Illumina.

Протокол

Команда Комментарий
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz Скачиваем чтения для работы
cat ../../adapters/*-SE.fa >> adapters.fasta Создаём файл с адаптерам Illumina для одноконцевых чтений
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359.fastq.gz SRR4240359_noadapt.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Выполняем чистку чтений от возможных остатков адаптеров
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359_noadapt.fastq SRR4240359_trimmed.fastq TRAILING:20 MINLEN:32 Удаляем с концов чтений нуклеотиды качества ниже 20 и оставляем чтения длины не менее 32 нуклеотидов
velveth ./velv 31 -fastq -short SRR4240359_trimmed.fastq Подготавливаем к-меры для построения графов
velvetg ./velv Построение графов де Брёйна и сборка контигов

Поток ошибок команд сохранялся в качестве лог-файлов.

Чтения были проверены на качество с помощью fastqc. Сравнение результатов анализа исходных чтений, чтений после очистки от остатков адаптеров и удаления нуклеотидов плохого качества говорит о том, что данные процедуры привели к значительному улучшению качества наших чтений. Остатками адаптеров оказалась 0,41% исходных чтений. По причинам плохого качества или небольшой длины было удалено 1308515 (9.69%) чтений, оставшихся после триммирования остатков адаптеров. До этой очистки вес файла составлял 1.4G, после — 1.2G.

После окончания работы velvetg узнаём, что для нашей сборки N50 составляет 70607. Самыми длинными контигами оказались NODE_1 (234136) с покрытием 43.4, NODE_5 (70607) с покрытием 43.35 и NODE_14 (71403) с покрытием 39.4. Среди контигов попались два, имеющие очень высокое покрытие: один из них имееют длину 47 и покрытие 139.5, другой — длину 40 и покрытие 109.5.

Полученные самые длинные контиги были проанализированны с помощью megablast (Рис.1). Контиг NODE_1 ложится на начало записи из банка, но претерпевает разрыв, так как за начало кольцевой хромосомы бактерии авторы выбрали другой регион. Контиг NODE_5 выравнивается с концом геномной записи. Контиг NODE_14 инвертирован по отношению к геномной записи из банка и располагается ближе к её середине. Контиги выранивались не целиком, а в виде фрагментов (Табл.1). В целом, выравнивания получились очень хорошими, однако присутствует некоторое количество разрывов на графиках, что может говорить о наличии неконсервативных регионов в геноме.

Рис.1 DotPlot для самый длинных контигов сборки: А — NODE_1, B — NODE_5, C — NODE_14.
Табл.1 Характеристики выровненных фрагментов (показана только часть строк)