Удаляем остатки адаптеров иллюмины программой trimmomatic с параметрами:
SE -threads 8 -trimlog trimlog.txt -phred33 SRR4240358.fastq.gz SRR4240358_trimmed.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7Удаляем некачественные нуклеотиды на концах ридов:
-threads 8 -trimlog trimlog2.txt -phred33 SRR4240358_trimmed.fastq.gz SRR4240358_trimmed_2.fastq.gz TRAILING:20 MINLEN:32При помощи анализа программой fastqc получаем размеры и состав файлов с последовательностями:
Исходник: 10543839 ридов - 470 Мб
После удаления остатков адаптеров: 10368884 ридов - 463 Мб
После удаления триммирования некачественных нуклеотидов и удаления слишком коротких ридов: 8016437 ридов - 341 Мб
Как можно посчитать, остатки адаптеров составляли 1,66% от исходного, последовательности неудовлетворительного качества - 25,33%. Это очень много. Качество исходного материала можно оценить как "очень плохо, но использовать можно". Это же подтверждает и общий график качества от fastqc:
Результаты взяты из pangenome.info
Создаем к-меры длиной 31 и помещаем их в папку kmers31 командой velveth:
velveth kmers31 31 -fastq.gz SRR4240358_trimmed_2.fastq.gz -shortПроводим сборку командой velvetg:
velvetg kmers31 &> result.logИзучая лог-файл, файл со статистикой и fasta-файл с контигами получаем:
N50: 8600
Номер контига | Длина | Покрытие |
56 | 19821 | 29,476 |
34 | 18714 | 29,923 |
40 | 16436 | 30,794 |
Насчет контигов с аномальным покрытием удалось заметить интересную особенность: существует 17 контигов покрытием менее 2, самый длинный из которых - номер 333, длины 31. Далее идет резкий скачок в покрытии и все следующие контиги уже имеют его более 10.
Сопоставляется с хромосомой 3 сегментами:
500370-508806Сходство 6516/8617(76%), гэпы 351/8617(4%)
510438-514772Сходство 3577/4393(81%), гэпы 77/4393(1%)
496111-500325Сходство 3256/4324(75%), гэпы 154/4324(3%)
Последовательность записана прямо, инверсий нет
Контиг №34Сопоставляется с хромосомой 6 сегментами:
8599-11103Сходство 1977/2525(78%), гэпы 50/2525(1%)
13994-14465Сходство 392/478(82%), гэпы 9/478(1%)
14727-17919Сходство 2450/3225(76%), гэпы 86/3225(2%)
17962-20171Сходство 1896/2220(85%), гэпы 30/2220(1%)
20358-22183Сходство 1509/1851(82%), гэпы 51/1851(2%)
23067-26764Сходство 2933/3779(78%), гэпы 140/3779(3%)
Последовательность записана прямо, инверсий нет
Контиг №40Сопоставляется с хромосомой 2 сегментами:
467412-474242Сходство 5343/6961(77%), гэпы 204/6961(2%)
462496-467421Сходство 3861/5015(77%), гэпы 162/5015(3%)
Последовательность записана в обратном порядке, инверсий нет