Учебный сайт Лидии Гаркуль

Сборка de novo

Цель данного практикума - собрать de novo геном бактерии Buchnera aphidicola из проекта по секвенированию по технологии Illumina с кодом доступа SRR4240358. Проект был скачан в рабочую директорию с помощью команды wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz.

1. Подготовка чтений программой trimmomatic.

Сначала соберем все адаптеры в одном файле с помощью следующих команд:

cp /mnt/scratch/NGS/adapters/* /mnt/scratch/NGS/lidia/pr15

cat *.fa > adapters.fasta

Далее с помощью триммоматик из чтений были удалены эти соответственно адаптеры: java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 12 SRR4240358.fastq.gz clear_reads.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 2> log_trimmomatic.txt. Log-файл можно найти тут. Из него можно узнать, что изначально было 10543839 чтений, осталось 10368884. То есть 1.66% всех чтений удалилось после триммоматика.

Также удалим с правых концов чтений нуклеотиды с качеством ниже 20 и чтения длины меньше 32 нуклеотидов: java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 12 clear_reads.fastq.gz new_clear_reads.fastq.gz TRAILING:20 MINLEN:32 2> log_trimmomatic2.txt. Результирующий файл лежит тут. Из него узнаем, что после такого фильтра было удалено 22.69% от количества изначальных чтений. На входе в файле было 10368884 чтений, на выходе 8016437.

2. Программа velveth

Далее с помощью команды velveth на основе офильтрованных чтений из пункта 1 создадим список k-меров длины 31:

velveth velveth 31 -fastq -short new_clear_reads.fastq.gz

Команда создала директорию velveth с тремя файлами.

3. Программа velvetg

На основе получившихся k-меров запустим программу velvetg для сборки генома:

velvetg velveth 1> log_velveg

Из файла узнаем, что N50 = 8600.

Найдем длины трех самых длинных контигов и их покрытие (команда sort -n -r -k 2 stats.txt | more

Есть контиги с аномально большим покрытием - 111576.00 (контиг длины 1 ID 136), и есть с аномально малым - 1.2 (контиг длины 5 ID 361).

4. Анализ

Сравним три самых длинных контига с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253) с помощью алгоритма megablast. Данные сравнения представлены в таблице 1.

Таблица. 1. Информация об образце.
ID 56 ID 34 ID 40
Ссылка на выдачу бласт contig_56_alig contig_34_alig contig_40_alig
Координаты участка хромосомы 500370 - 508806 17962 - 20171 467412 - 474242
Score 3949 bits 2278 bits 3703 bits
Identity 6513/8614(76%) 1896/2220(85%) 5344/6962(77%)
Число гэпов 345/8614(4%) 30/2220(1%) 206/6962(2%)
E-value 0.0 0.0 0.0
Карта локального сходства
per_base1
per_base1
per_base1

История команд лежит тут.