Сборка генома de novo бактерии Buchnera aphidicola осуществлялась из ридов с кодом SRR4240378.
Скачивание архива с чтениями:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz
Получили архив SRR4240378.fastq.gz с весом 91M
Сбор адаптерв для Illumina в один файл adapters.fasta:
cat /mnt/scratch/NGS/adapters/* > adapters.fasta
Удаление остатков адаптеров:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240378.fastq.gz SRR4240378_without_adptrs.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7
Получение архива SRR4240378_without_adptrs.fastq.gz с весом 89M
Количество чтений сократилось с 4420587 до 4338744, то есть 81843 (1.85%) оказались адаптерами.
Удаление с правых концов чтений нуклеотидов с качеством ниже 20, с оставлением только таких чтений, длина которых не меньше 32 нуклеотидов:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240378_without_adptrs.fastq.gz SRR4240378_quality.fastq.gz TRAILING:20 MINLEN:32
Количество чтений сократилось с 4338744 до 4154738, то есть 184006 (4.24%) оказались плохого качества.
Получили архив SRR4240378_quality.fastq.gz с весом 84M
Подготовка k-меров длины k=31 с помощью программы velveth:
velveth ./SRR4240378_kmers 31 -short -fastq.gz SRR4240378_quality.fastq.gz
Cборка на основе k-меров c помощью программы velvetg:
velvetg SRR4240378_kmers
Для полученной сборки N50=7028
ID контига | Длина(bp) | Покрытие |
---|---|---|
8 | 36746 | 20.017199 |
57 | 19371 | 20.546642 |
15 | 16745 | 20.901762 |
Медианное значение покрытия контигов составляет 17.65, примем его за "типичное".
Примеры аномально большого(1) и малого(2) покрытия:
Сравнение программой megablast каждого из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Контиг выравнился с обратной цепью референсного генома, причем крупных перестроек не наблюдается(транслокаций, делеций, инверсий),а число однонуклеотидных замен мало.
% identity | alignment length | mismatches | gap opens | q. start | q. end |
---|---|---|---|---|---|
75.609 | 8614 | 1756 | 261 | 500370 | 508806 |
78.569 | 6234 | 1143 | 147 | 510441 | 516539 |
74.074 | 6264 | 1306 | 249 | 481997 | 488128 |
75.283 | 4325 | 913 | 123 | 496111 | 500325 |
80.144 | 1385 | 260 | 15 | 493487 | 494864 |
82.096 | 687 | 107 | 15 | 480874 | 481548 |
90.000 | 120 | 7 | 4 | 495033 | 495148 |
Контиг выравнился с обратной цепью референсного генома, причем крупных перестроек не наблюдается(транслокаций, делеций, инверсий),зато число однонуклеотидных замен значительно (примерно 1/5 часть длины выравненного участка).
% identity | alignment length | mismatches | gap opens | q. start | q. end |
---|---|---|---|---|---|
73.428 | 9826 | 2148 | 363 | 573092 | 582689 |
75.630 | 2778 | 567 | 88 | 584329 | 587055 |
Контиг выравнился с небольшим участком обратной цепью референсного генома, причем крупных перестроек не наблюдается(транслокаций, делеций, инверсий),зато значительно число однонуклеотидных замен.
% identity | alignment length | mismatches | gap opens | q. start | q. end |
---|---|---|---|---|---|
77.806 | 7538 | 1426 | 181 | 144368 | 151796 |