Учебный Сайт Николая Николаева

Назад на страницу семестра

Сборка генома de novo.

Файлы TruSeq3-SE.fa и TruSeq2-SE.fa из папки adapters были скопированы в рабочую директорию и объединены в файл TruSeq-SE.fa.

Геном собирался следующей последовательностью программ:

    • java -jar /usr/share/java/trimmomatic.jar SE SRR*fastq.gz trim1.fastq.gz ILLUMINACLIP:./TruSeq-SE.fa:2:7:7 &> trim1.log
    • java -jar /usr/share/java/trimmomatic.jar SE trim1.fastq.gz trim2.fastq.gz MINLEN:32 TRAILING:20 &> trim2.log
  1. velveth . 31 -short -fastq trim2.fastq.gz &> velveth.log
  2. velvetg . -scaffolding no &> velvetg.log

После первого запуска trimmomatic отбросил 97710 (1.87%) чтений - они оказались остатками адаптеров.
После второго запуска было удалено 75915 (1.48%) чтений; размер файла уменьшился с 110.8 мб (trim1.fq.gz) до 106.8 мб (trim2.fq.gz).

N50 сборки - 12382, среднее покрытие - 25.77. Список контигов, их длин и покрытий, а также вычисление среднего покрытия доступны в таблице contigs-info.xlsx

Анализ сборки.

Контиги Node_3. Node_20 и Node_22 были выровнены на готовый геном с помощью megablast. Для каждого из них лишь одно выравнивание прошло порог E-value 0.05. Каждое имеет характеристики, позволяющие с высокой долей уверенности утверждать, что контиги найдены на хромосоме правильно (см. Табл.1).
Таблица 1.Характеристика выравниваний контигов и бактериальной хромосомы.
КонтигКоординаты на хромосомеE-valueНесовпадения нуклеотидовГэпы
Node_3613658-111030.001748244
Node_20252164-2294110.002315387
Node_22573092-594099 0.002147463
Рис. 1. Карты локального сходста хромосомы бактерии и контигов Node_3 (A), Node_20 (B) и Node_22 (C). Виден крупный участок несоответствия у Node_20 и два - у Node_22.