Сборка генома de novo

Скачиваю данный мне архив с чтениями:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz

Подготовка чтений программой trimmomatic

Объединяю файлы с адапетрами для illumina в один файл:

cat /mnt/scratch/NGS/adapters/* > adapters.fa

Удаляю остатки адаптеров:

TrimmomaticSE -phred33 SRR4240378.fastq.gz SRR4240378_trim1.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7 -trimlog trimmomatic1.log

Было удалено 81843 (1.85%) чтений.

После этого удаляю с правых концов чтений нуклеотиды с качеством ниже 20 и оставляю только чтения, длина которых не меньше 32 нуклеотидов:

TrimmomaticSE -phred33 SRR4240378_trim1.fastq.gz SRR4240378_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trimmomatic2.log

Было удалено 184006 (4.24%) чтений.

До очистки размер файла составлял 91M, после первой очистки — 89M, после второй — 84M.

Запуск velveth

Программа velveth на основе нашего файла подготавливает k-меры длины k=31:

velveth velv 31 -short -fastq.gz SRR4240378_trim2.fastq.gz

Запуск velvetg

Программа velvetg осуществляет сборку на основе k-меров:

velvetg velv

После работы программы были получены контиги с N50=7028.

С помощью команды sort -r -n -k 2 stats.txt | less были найдены три самых больших контига:

8 контиг, длина 36746, покрытие 20,0
57 контиг, длина 19371, покрытие 20,5
15 контиг, длина 16745, покрытие 20,9

Есть контиги с анамольным покрытием (148170, 968, 923, 829 и т.д.) и все они длины 1. Но есть, например, 81-й контиг длины 934 с покрытием 102.7 и 19-й контиг длины 2106 с покрытием 100,5.

Анализ сборки

Три самых больших контига были картированы на хромосому CP009253 с помощью megablast.

8-й контиг картируется на хромосому в семи своих участках с негомологичными промежутками между ними:

480874-481545 (82% идентичных нуклеотидов, 2% гэпов)
481997-488106 (74% идентичных нуклеотидов, 4% гэпов)
493487-494864 (80% идентичных нуклеотидов, 0% (13 штук) гэпов)
495033-495148 (90% идентичных нуклеотидов, 4% гэпов)
496111-500325 (75% идентичных нуклеотидов, 3% гэпов)
500370-508806 (76% идентичных нуклеотидов, 4% гэпов)
510438-516539 (79% идентичных нуклеотидов, 2% гэпов)

57-й контиг картируется на хромосому в двух своих участках с негомологичными промежутками между ними:

573092-582686 (73% идентичных нуклеотидов, 4% гэпов)
584329-587055 (76% идентичных нуклеотидов, 3% гэпов)

15-й контиг картируется на хромосому в одном своем участке:

144368-151796 (78% идентичных нуклеотидов, 3% гэпов)