Сборка генома de novo

Скачиваю данный мне архив с чтениями:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz

Подготовка чтений программой trimmomatic

Объединяю файлы с адапетрами для illumina в один файл:

cat /mnt/scratch/NGS/adapters/* > adapters.fa

Удаляю остатки адаптеров:

TrimmomaticSE -phred33 SRR4240378.fastq.gz SRR4240378_trim1.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7 -trimlog trimmomatic1.log

Было удалено 81843 (1.85%) чтений.

После этого удаляю с правых концов чтений нуклеотиды с качеством ниже 20 и оставляю только чтения, длина которых не меньше 32 нуклеотидов:

TrimmomaticSE -phred33 SRR4240378_trim1.fastq.gz SRR4240378_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trimmomatic2.log

Было удалено 184006 (4.24%) чтений.

До очистки размер файла составлял 91M, после первой очистки — 89M, после второй — 84M.

Запуск velveth

Программа velveth на основе нашего файла подготавливает k-меры длины k=31:

velveth velv 31 -short -fastq.gz SRR4240378_trim2.fastq.gz

Запуск velvetg

Программа velvetg осуществляет сборку на основе k-меров:

velvetg velv

После работы программы были получены контиги с N50=7028.

С помощью команды sort -r -n -k 2 stats.txt | less были найдены три самых больших контига:

  1. 8 контиг, длина 36746, покрытие 20,0
  2. 57 контиг, длина 19371, покрытие 20,5
  3. 15 контиг, длина 16745, покрытие 20,9

Есть контиги с анамольным покрытием (148170, 968, 923, 829 и т.д.) и все они длины 1. Но есть, например, 81-й контиг длины 934 с покрытием 102.7 и 19-й контиг длины 2106 с покрытием 100,5.

Анализ сборки

Три самых больших контига были картированы на хромосому CP009253 с помощью megablast.

  1. 8-й контиг картируется на хромосому в семи своих участках с негомологичными промежутками между ними:
  2. 57-й контиг картируется на хромосому в двух своих участках с негомологичными промежутками между ними:
  3. 15-й контиг картируется на хромосому в одном своем участке: