Для сборки мною были взяты прочтения генома бактерии Buchnera aphidicola с AC SRR4240379 из базы ENA. На первом этапе я удалил адаптеры. В процессе этого отсеялись 130303 (1.76%) прочтений, а размер файла уменьшился примерно на 2 МБ (со 167 до 165). После этого я удалил с правых концов чтений нуклеотиды с качеством меньше 20 и оставил чтения короче 32 нуклеотидов. Таким образом было удалено ещё 295585 (4.07% от входного файла уже без адаптеров) прочтений, а файл "похудел" ещё на 9 МБ.
N50 сборки равен 25646. Три самых длинных контига (6, 9 и 5 узлы) имеют длину 49942, 49292 и 33115 (в нуклеотидах) и покрытия 35.907237, 34.772177 и 36.259030, соответственно. Всего в окончательном графе 440 узлов. Среди них есть узлы 105 с покрытием 2694.00 и 133 с покрытием 474299.00. Оба этих узла имеют длину в 31 нуклеотид и, видимо, являются участками низкой сложности или повторами, часто встречающимися в геноме. Они не вошли в финальную сборку в файле contigs.fa.
6 контиг выравнивается на референсный геном бактерии (GenBank AC CP009253) 5 раздельными фрагментами со следующими параметрами выравниваний:
Координаты в геноме | Число однонуклеотидных различий | Число гэпов |
127825-140555 | 2715 | 552/13012(4%) |
153752-161738 | 1552 | 270/8171(3%) |
144368-151796 | 1426 | 247/7538(3%) |
161898-166752 | 898 | 104/4910(2%) |
166750-173180 | 1399 | 153/6514(2%) |
9 контиг выравнивается на геном 10 раздельными фрагментами со следующими параметрами выравниваний:
Координаты в геноме | Число однонуклеотидных различий | Число гэпов |
500370-508806 | 1750 | 351/8617(4%) |
510438-516539 | 1150 | 187/6234(2%) |
523105-528679 | 1109 | 207/5685(3%) |
481997-488106 | 1309 | 308/6238(4%) |
517766-521500 | 760 | 101/3783(2%) |
496111-500325 | 915 | 154/4324(3%) |
493487-494864 | 262 | 13/1384(0.9%) |
480874-481545 | 102 | 20/686(2%) |
528794-529211 | 42 | 26/425(6%) |
495033-495148 | 7 | 5/120(4%) |
5 контиг выравнивается на геном 4 фрагментами со следующими параметрами выравниваний, и можно заметить, что участок в 10 нуклеотидов в 467412-467421 позиции генома представлен в двух участках собранного de novo контига (19595-19604 и 19556-19565 позиции).
Координаты в геноме | Число однонуклеотидных различий | Число гэпов |
467412-474667 | 1489 | 208/7388(2%) |
462496-467421 | 992 | 162/5015(3%) |
474844-480660 | 1288 | 255/5974(4%) |
451729-454069 | 488 | 55/2370(2%) |