Для сборки мною были взяты прочтения генома бактерии Buchnera aphidicola с AC SRR4240379 из базы ENA. На первом этапе я удалил адаптеры. В процессе этого отсеялись 130303 (1.76%) прочтений, а размер файла уменьшился примерно на 2 МБ (со 167 до 165). После этого я удалил с правых концов чтений нуклеотиды с качеством меньше 20 и оставил чтения короче 32 нуклеотидов. Таким образом было удалено ещё 295585 (4.07% от входного файла уже без адаптеров) прочтений, а файл "похудел" ещё на 9 МБ.
N50 сборки равен 25646. Три самых длинных контига (6, 9 и 5 узлы) имеют длину 49942, 49292 и 33115 (в нуклеотидах) и покрытия 35.907237, 34.772177 и 36.259030, соответственно. Всего в окончательном графе 440 узлов. Среди них есть узлы 105 с покрытием 2694.00 и 133 с покрытием 474299.00. Оба этих узла имеют длину в 31 нуклеотид и, видимо, являются участками низкой сложности или повторами, часто встречающимися в геноме. Они не вошли в финальную сборку в файле contigs.fa.
6 контиг выравнивается на референсный геном бактерии (GenBank AC CP009253) 5 раздельными фрагментами со следующими параметрами выравниваний:
| Координаты в геноме | Число однонуклеотидных различий | Число гэпов |
| 127825-140555 | 2715 | 552/13012(4%) |
| 153752-161738 | 1552 | 270/8171(3%) |
| 144368-151796 | 1426 | 247/7538(3%) |
| 161898-166752 | 898 | 104/4910(2%) |
| 166750-173180 | 1399 | 153/6514(2%) |
9 контиг выравнивается на геном 10 раздельными фрагментами со следующими параметрами выравниваний:
| Координаты в геноме | Число однонуклеотидных различий | Число гэпов |
| 500370-508806 | 1750 | 351/8617(4%) |
| 510438-516539 | 1150 | 187/6234(2%) |
| 523105-528679 | 1109 | 207/5685(3%) |
| 481997-488106 | 1309 | 308/6238(4%) |
| 517766-521500 | 760 | 101/3783(2%) |
| 496111-500325 | 915 | 154/4324(3%) |
| 493487-494864 | 262 | 13/1384(0.9%) |
| 480874-481545 | 102 | 20/686(2%) |
| 528794-529211 | 42 | 26/425(6%) |
| 495033-495148 | 7 | 5/120(4%) |
5 контиг выравнивается на геном 4 фрагментами со следующими параметрами выравниваний, и можно заметить, что участок в 10 нуклеотидов в 467412-467421 позиции генома представлен в двух участках собранного de novo контига (19595-19604 и 19556-19565 позиции).
| Координаты в геноме | Число однонуклеотидных различий | Число гэпов |
| 467412-474667 | 1489 | 208/7388(2%) |
| 462496-467421 | 992 | 162/5015(3%) |
| 474844-480660 | 1288 | 255/5974(4%) |
| 451729-454069 | 488 | 55/2370(2%) |