Учебный сайт Сергея Маргасюка

Сборка генома de novo

Для сборки генома чтения были предварительно очищены программой trimmomatic, запущенной с параметрами ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30 (удаление адаптеров, удаление с конца нуклеотидов с качеством ниже 20, удаление чтений длины менее 30). При очистке размер файла с чтениями был уменьшен с 1.4G до 1.2G, из 13710994 чтений было удалено 1727161 (12.6%).

Перед сборкой была построена хэш-таблица (команда velveth Assem 29 -short -fastq trimmed.fastq: слова длины 29, чтения короткие, непарные). Сборка выполнялась с помощью команды velvetg ./Assem. Для полученной сборки N50 равен 261, три самых длинных контига имеют длину 50157, 49915 и 47295 п.н.; их покрытие — 55, 51, 47 соответственно. Приведем характеристики нескольких контигов с покрытием, сильно отклоняющимся от среднего (22.06 по файлу stats.txt): контиг 109 (длина 58, покрытие 585) принадлежит гену в плазмиде, кодирующему антранилат-синтазу; контиг 351 (длина 55, покрытие 541) принадлежит тому же гену; контиг 1735 (длина 62, покрытие 2) качественно не выравнивается с помощью blast (e-value = 3.4): вероятно, это результат ошибки сборщика. Отметим, что оба участка с наибольшим покрытием отвечают за синтез прекурсора триптофана — антранилата; синтез триптофана — функция данной бактерии, являющейся симбионтом тлей, многие другие гены редуцированы в связи с обитанием внутри организма тли и питанием засчет ее продуктов жизнедеятельности [1].

Опишем положение наиболее длинных контигов на хромосоме (выравнивания построены с помощью megablast с хромосомой CP009253: для всех описываемых выравниваний E-value менее e-200 и отображается как 0).

Таблица 1: характеристики наиболее длинных контигов
№ контига длина контига координаты в геноме количество несовпадений с хромосомой число гэпов
9 50157 2004:14495 1992 252
3 49915 127825..173180 3267 544
6 47295 474667..480874 1691 208

Ссылки



© Сергей Маргасюк, 2015-2016