Сборка генома de novo

В данном практикуме было предложено собрать геном бактерии Buchnera aphidicola de novo. AC проекта, с которым я буду работать далее: SRR4240380.

Ход работы:

  1. Удаляем остатки адаптеров. На первом этапе чистки отброшено 98 174 (1.88%) последовательностей. На втором этапе 253785 (4.96%) оказались неудовлетворительного качества. До обработки файл весил 108 Мб, после первого этапа 106 Мб, а итоговый -- 99 Мб.

    java -jar /usr/share/java/trimmomatic.jar SE -threads 20 -trimlog trim1.log ../${SRA}.fastq.gz ${SRA}_trimmed_1.fastq.gz ILLUMINACLIP:../adapters.fa:2:7:7

    java -jar /usr/share/java/trimmomatic.jar SE -threads 20 -trimlog trim2.log ${SRA}_trimmed_1.fastq.gz ${SRA}_trimmed_2.fastq.gz TRAILING:${trailing} MINLEN:${minlen}

  2. Запускаем сборку на основе k-меров с помощью программ velveth и velvetg. Параметр k соответствует длине чтений 31, -short обозначает короткие непарные чтения.

    velveth velvet/ 31 -fastq.gz -short ../trimming/${SRA}_trimmed_2.fastq.gz &> velveth.log

    velvetg velvet/ &> velvetg.log

    Для данной сборки параметр N50 = 12 042. С помощью команды sort -rn -k 2 stats.txt | head -n 3 | less были найдены 3 самых длинных фрагмента. Также имелись фрагменты с выделяющимися значениями покрытий, например: >NODE_11_length_2106_cov_126.008545 (покрытие 126), >NODE_235_length_62_cov_2.419355 (покрытие 2.41).

    ID фрагмента Длина Покрытие
    3 25915 27.418676
    20 23850 24.763816
    23 23807 25.725921
    Таблица 1. Параметры самых длинных ридов
  3. Далее 3 самых длиных контига были выровнены относительно хромосомы изучаемой бактерии с помощью программы megablast. Ее GenBank/EMBL AC — CP009253.

ID фрагмента Координаты Краткое описание
3 2004..11103, 613658..620926, 621055..627104 Процент идентичности 78.4. Контиг лег на геном хорошо, небольшой гэп заметен лишь в районе 7000. Ориентация последовательности в банке и контига совпадает, разве что различаются их точки начала.
20 236918..247596, 232358..236859, 229411..232057, 248967..252161 Процент идентичности 75.17. Ориентация контига и последовательности из банка противоположные. Помимо небольших гэпов имеется довольно крупный в районе 7000.
23 573092..582686, 584329..587055, 593743..594099 Процент идентичности 73.43. Ориентация контига и последовательности из банка совпадают. Имеются два гэпа: один более маленький, в районе 10000 п.н., второй очень большой: 14-22 тыс.п.н.
Таблица 2. Выравнивания контигов на геном бактерии
sorry :c
Рис. 1 ID=3
sorry :c
Рис. 2 ID=20
sorry :c
Рис. 3 ID=23

I don't know how to make footer properly. You may as well pretend you haven't seen this phrase!

↩ К странице семестров