Цель данного практикума - собрать de novo геном бактерии Buchnera aphidicola из проекта по секвенированию по технологии Illumina с кодом доступа SRR4240358. Проект был скачан в рабочую директорию с помощью команды wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz.
Сначала соберем все адаптеры в одном файле с помощью следующих команд:
cp /mnt/scratch/NGS/adapters/* /mnt/scratch/NGS/lidia/pr15
cat *.fa > adapters.fasta
Далее с помощью триммоматик из чтений были удалены эти соответственно адаптеры: java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 12 SRR4240358.fastq.gz clear_reads.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 2> log_trimmomatic.txt. Log-файл можно найти тут. Из него можно узнать, что изначально было 10543839 чтений, осталось 10368884. То есть 1.66% всех чтений удалилось после триммоматика.
Также удалим с правых концов чтений нуклеотиды с качеством ниже 20 и чтения длины меньше 32 нуклеотидов: java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 12 clear_reads.fastq.gz new_clear_reads.fastq.gz TRAILING:20 MINLEN:32 2> log_trimmomatic2.txt. Результирующий файл лежит тут. Из него узнаем, что после такого фильтра было удалено 22.69% от количества изначальных чтений. На входе в файле было 10368884 чтений, на выходе 8016437.
Далее с помощью команды velveth на основе офильтрованных чтений из пункта 1 создадим список k-меров длины 31:
velveth velveth 31 -fastq -short new_clear_reads.fastq.gz
Команда создала директорию velveth с тремя файлами.
На основе получившихся k-меров запустим программу velvetg для сборки генома:
velvetg velveth 1> log_velveg
Из файла узнаем, что N50 = 8600.
Найдем длины трех самых длинных контигов и их покрытие (команда sort -n -r -k 2 stats.txt | more
Есть контиги с аномально большим покрытием - 111576.00 (контиг длины 1 ID 136), и есть с аномально малым - 1.2 (контиг длины 5 ID 361).
Сравним три самых длинных контига с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253) с помощью алгоритма megablast. Данные сравнения представлены в таблице 1.
ID 56 | ID 34 | ID 40 | |
---|---|---|---|
Ссылка на выдачу бласт | contig_56_alig | contig_34_alig | contig_40_alig |
Координаты участка хромосомы | 500370 - 508806 | 17962 - 20171 | 467412 - 474242 |
Score | 3949 bits | 2278 bits | 3703 bits |
Identity | 6513/8614(76%) | 1896/2220(85%) | 5344/6962(77%) |
Число гэпов | 345/8614(4%) | 30/2220(1%) | 206/6962(2%) |
E-value | 0.0 | 0.0 | 0.0 |
Карта локального сходства |
История команд лежит тут.