pano

Сборка de novo

Подготовка чтений

Для сборки мною были взяты прочтения генома бактерии Buchnera aphidicola с AC SRR4240379 из базы ENA. На первом этапе я удалил адаптеры. В процессе этого отсеялись 130303 (1.76%) прочтений, а размер файла уменьшился примерно на 2 МБ (со 167 до 165). После этого я удалил с правых концов чтений нуклеотиды с качеством меньше 20 и оставил чтения короче 32 нуклеотидов. Таким образом было удалено ещё 295585 (4.07% от входного файла уже без адаптеров) прочтений, а файл "похудел" ещё на 9 МБ.

Результаты сборки программой velvet

N50 сборки равен 25646. Три самых длинных контига (6, 9 и 5 узлы) имеют длину 49942, 49292 и 33115 (в нуклеотидах) и покрытия 35.907237, 34.772177 и 36.259030, соответственно. Всего в окончательном графе 440 узлов. Среди них есть узлы 105 с покрытием 2694.00 и 133 с покрытием 474299.00. Оба этих узла имеют длину в 31 нуклеотид и, видимо, являются участками низкой сложности или повторами, часто встречающимися в геноме. Они не вошли в финальную сборку в файле contigs.fa.

6 контиг выравнивается на референсный геном бактерии (GenBank AC CP009253) 5 раздельными фрагментами со следующими параметрами выравниваний:

Координаты в геноме Число однонуклеотидных различий Число гэпов
127825-140555 2715 552/13012(4%)
153752-161738 1552 270/8171(3%)
144368-151796 1426 247/7538(3%)
161898-166752 898 104/4910(2%)
166750-173180 1399 153/6514(2%)
Dot Plot выравниваний.

9 контиг выравнивается на геном 10 раздельными фрагментами со следующими параметрами выравниваний:

Координаты в геноме Число однонуклеотидных различий Число гэпов
500370-508806 1750 351/8617(4%)
510438-516539 1150 187/6234(2%)
523105-528679 1109 207/5685(3%)
481997-488106 1309 308/6238(4%)
517766-521500 760 101/3783(2%)
496111-500325 915 154/4324(3%)
493487-494864 262 13/1384(0.9%)
480874-481545 102 20/686(2%)
528794-529211 42 26/425(6%)
495033-495148 7 5/120(4%)
Dot Plot выравниваний.

5 контиг выравнивается на геном 4 фрагментами со следующими параметрами выравниваний, и можно заметить, что участок в 10 нуклеотидов в 467412-467421 позиции генома представлен в двух участках собранного de novo контига (19595-19604 и 19556-19565 позиции).

Координаты в геноме Число однонуклеотидных различий Число гэпов
467412-474667 1489 208/7388(2%)
462496-467421 992 162/5015(3%)
474844-480660 1288 255/5974(4%)
451729-454069 488 55/2370(2%)
Dot Plot выравниваний.