Сборка генома de novo

Подготовка чтений

Чтения были скачаны командой: ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz

Следующей командой адаптеры были собраны в один файл: cat /mnt/scratch/NGS/adapters/* >> adapters.fasta

Командой: java -jar /usr/share/java/trimmomatic.jar SE SRR4240361.fastq.gz trimmed.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fasta:2:7:7 были удалены адаптеры. В результате было удалено 0.47% чтений.

После этого необходимо было удалить с правых концов чтений нуклеотиды с качеством ниже 20 и чтения длиной меньше 32: java -jar /usr/share/java/trimmomatic.jar SE trimmed.fastq.gz trimmed2.fastq.gz -trimlog trim_2.log TRAILING:20 MINLEN:32

Это удалило 5.58% чтений, сохранив лишь 94.42%.

Получение k-меров

Для получения k-меров использовалась команда: velveth kmers31 31 -fastq -short trimmed2.fastq.gz &> velveth.log

Сборка контигов была сделана командой: velvetg kmers31 &> velvetg.log. N50 составил 25683.

Самые длинные контиги были выделены командой: sort -n -k 2 -r kmers31/stats.txt | head

Наиболее длинные контиги обладают следующими длинами и покрытиями:

Контиги с аномально большим и аномально маленьким покрытием были получены командами: $ sort -n -k 6 -r kmers31/stats.txt | head -n 3 и $ sort -n -k 6 kmers31/stats.txt | head -n 10 соответственно.
Контиг с самым большим покрытием: ID: 62 , покрытие - 212829.000000
Аномально большое покрытие
Контиги с самыми маленькими покрытиями(несколько контигов имеют одинаково малое покрытие):
Аномально малое покрытие

Анализ контигов

Контиг 1

Контиг ложится на участок хромосомы с 8486 по 16931, общий вес выравнивания составляет 10919. При проценте идентичности 75.6% процент покрытия составляет 3%. Есть два разрыва.
Файл выдачи

Контиг 2

Контиг ложится на участок хромосомы с 10948 по 18297, общий вес выравнивания составляет 17272. При проценте идентичности 77.02% процент покрытия составляет 5%. Есть два разрыва.
Файл выдачи

Контиг 3

Контиг ложится на участок хромосомы с 7381 по 14685, общий вес выравнивания составляет 12365. При проценте идентичности 79.21% процент покрытия составляет 3%.
Файл выдачи