Сборка генома de novo

Подготовка чтений

Чтения были скачаны командой: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz

Следующей командой адаптеры были собраны в один файл: cat /mnt/scratch/NGS/adapters/* >> adapters.fasta

Командой: java -jar /usr/share/java/trimmomatic.jar SE SRR4240358.fastq.gz trimmed.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fasta:2:7:7 были удалены адаптеры. В результате было удалено 1.66% чтений.

После этого необходимо было удалить с правых концов чтений нуклеотиды с качеством ниже 20 и чтения длиной меньше 32: java -jar /usr/share/java/trimmomatic.jar SE trimmed.fastq.gz trimmed2.fastq.gz -trimlog trim_2.log TRAILING:20 MINLEN:32

Это удалило 22.69% чтений, сохранив лишь 77.31%. В итоге исходный файл размером 492Мб стал весить 430Мб.

Получение k-меров

Для получения k-меров использовалась команда: velveth kmers31 31 -fastq -short trimmed2.fastq.gz &> velveth.log

Сборка контигов была сделана командой: velvetg kmers31 &> velvetg.log. N50 составил 8600.

Самые длинные контиги были выделены командой: sort -n -k 2 -r kmers31/stats.txt | head

Контиги с аномально большим и аномально маленьким покрытием были получены командами: $ sort -n -k 6 -r kmers31/stats.txt | head -n 3 и $ sort -n -k 6 kmers31/stats.txt | head -n 10 соответственно.

Аномально большое покрытие
Аномально малое покрытие

Анализ контигов

Контиг 56

Контиг ложится на участок хромосомы с 500370 по 598806, общий вес выравнивания составляет 9397. При проценте идентичности 75.61% процент покрытия составляет 86%. Есть один разрыв. Ссылка на выдачу: тык

Контиг 34

Контиг ложится на участок хромосомы с 17962 по 20171, общий вес выравнивания составляет 9481. При проценте идентичности 85.41% процент покрытия составляет 74%. Есть 4 разрыва. Ссылка на выдачу: тык

Контиг 40

Контиг ложится на участок хромосомы с 467412 по 474242, общий вес выравнивания составляет 6423. При проценте идентичности 76.76% процент покрытия составляет 71%. Разрывов нет. Ссылка на выдачу: тык