Для сборки генома чтения были предварительно очищены программой trimmomatic, запущенной с параметрами ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30 (удаление адаптеров, удаление с конца нуклеотидов с качеством ниже 20, удаление чтений длины менее 30). При очистке размер файла с чтениями был уменьшен с 1.4G до 1.2G, из 13710994 чтений было удалено 1727161 (12.6%).
Перед сборкой была построена хэш-таблица (команда velveth Assem 29 -short -fastq trimmed.fastq: слова длины 29, чтения короткие, непарные). Сборка выполнялась с помощью команды velvetg ./Assem. Для полученной сборки N50 равен 261, три самых длинных контига имеют длину 50157, 49915 и 47295 п.н.; их покрытие — 55, 51, 47 соответственно. Приведем характеристики нескольких контигов с покрытием, сильно отклоняющимся от среднего (22.06 по файлу stats.txt): контиг 109 (длина 58, покрытие 585) принадлежит гену в плазмиде, кодирующему антранилат-синтазу; контиг 351 (длина 55, покрытие 541) принадлежит тому же гену; контиг 1735 (длина 62, покрытие 2) качественно не выравнивается с помощью blast (e-value = 3.4): вероятно, это результат ошибки сборщика. Отметим, что оба участка с наибольшим покрытием отвечают за синтез прекурсора триптофана — антранилата; синтез триптофана — функция данной бактерии, являющейся симбионтом тлей, многие другие гены редуцированы в связи с обитанием внутри организма тли и питанием засчет ее продуктов жизнедеятельности [1].
Опишем положение наиболее длинных контигов на хромосоме (выравнивания построены с помощью megablast с хромосомой CP009253: для всех описываемых выравниваний E-value менее e-200 и отображается как 0).
№ контига | длина контига | координаты в геноме | количество несовпадений с хромосомой | число гэпов |
9 | 50157 | 2004:14495 | 1992 | 252 |
3 | 49915 | 127825..173180 | 3267 | 544 |
6 | 47295 | 474667..480874 | 1691 | 208 |