Практикум №15. Сборка de novo.

В рамках данного практикума мы выполняем задания по сборке генома de novo. Для этого в таблице напротив своей фамилии я нашла код доступа проекта по секвенированию бактерии Buchnera aphidicola.

Далее скачиваю чтения командой:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz

Подготовка чтений командой trimmomatic

Я получила файл all_adapters.fasta объединением файлов с адаптерами.

Далее проводилась обрезка адапретов командой:

java -jar /usr/share/java/trimmomatic.jar SE -threads 20 SRR4240361.fastq.gz SRR4240361_adapttrim.fastq.gz ILLUMINACLIP:all_adapters.fasta:2:7:7 2> log_adapttrim.txt

Далее из файла log_adapttrrim.txt выяснено, что адаптеры составляли 0,47% всех последовательностей чтений.

Затем необходимо было удалить с правых концов чтений нуклеотиды с качеством ниже 20 и оставить только такие чтения, длина которых не меньше 32 нуклеотидов. Для этого использовала команду:

java -jar /usr/share/java/trimmomatic.jar SE -threads 20 SRR4240361_adapttrim.fastq.gz SRR4240361_trim.fastq.gz TRAILING:20 MINLEN:32 2>log_trim.txt

Проанализировав файл log_trim.txt, сделала вывод, что на данном этапе было удалено 403754 (5.58%) чтений. Вес исходного файла 193M, после очистки адаптеров - 192M, после удаления части чтений - 178М.

Подготовка k-меров длины 31.

Команда, использованная на это этапе:

velveth kmers 31 -short -fastq.gz SRR4240361_trim.fastq.gz

где 31 - длина К-меров, kmers - папка, куда перемещаются К-меры.

Cборка генома

Далее была произведена сборка геномов на основе 31-меров. Команда:

velvetg kmers

Анализ качества сборки

Используя файл Log, установила, что N50 сборки = 25683

С помощью команды sort -r -n -k 2 stats.txt | less установила длины трёх самых длинных контигов и их покрытие (Результат команды в Таблице 1.)

photo

Таблица 1.

Есть контиги с аномально большим покрытием, но их длина <<31. К примеру, у контига длиной 1 (ID 62) покрытие составляет 212829.0. Есть и контиги с аномально маленьким покрытием. Например, контиг длиной 63 (ID 169) имеет покрытие 2.952381.

Далее я сравнивала каждый из трех самых длинных контингов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Ниже приведены результаты программы megablast и поясление к ним.

Пояснения к Рис.1.

Фрагмент контига 50-12790 выровнился на участок хромосомы с координатами 127845-140555.

  • Identity 75%
  • Количество SNP - 3259
  • Количество гэпов - 548 (4%)
  • Фрагмент контига 25809-338903 выровнился на участок хромосомы с координатами 153752-161738.

  • Identity 78%
  • Количество SNP - 1813
  • Количество гэпов - 264 (3%)
  • Фрагмент контига 16429-23828 выровнился на участок хромосомы с координатами 144368-151796.

  • Identity 78%
  • Количество SNP - 1677
  • Количество гэпов - 243 (3%)
  • Фрагмент контига 34098-38958 выровнился на участок хромосомы с координатами 161898-166752

  • Identity 80%
  • Количество SNP - 1003
  • Количество гэпов - 112 (2%)
  • Фрагмент контига 38989-45432 выровнился на участок хромосомы с координатами 166750-173180

  • Identity 76%
  • Количество SNP - 1550
  • Количество гэпов - 159 (2%)
  • photo

    Рис 1.

    Пояснение к Рис.2.

    Фрагмент контига 10984-23268 выровнился на участок хромосомы с координатами 467412-474667

  • Identity 77%
  • Количество SNP - 1698
  • Количество гэпов -208 (2%)
  • Фрагмент контига 18327-23268 выровнился на участок хромосомы с координатами 462496-467421

  • Identity 77%
  • Количество SNP - 1153
  • Количество гэпов -162 (3%)
  • Фрагмент контига 40383-43410 выровнился на участок хромосомы с координатами 442877-445895

  • Identity 80%
  • Количество SNP - 603
  • Количество гэпов -61 (1%)
  • Фрагмент контига 977-5299 выровнился на участок хромосомы с координатами 253223-257546

  • Identity 73%
  • Количество SNP - 1176
  • Количество гэпов -195 (4%)
  • Фрагмент контига 34011-35345 выровнился на участок хромосомы с координатами 285200-286535

  • Identity 76%
  • Количество SNP - 324
  • Количество гэпов -27 (2%)
  • Фрагмент контига 32205-33314 выровнился на участок хромосомы с координатами 283963-285070

  • Identity 76%
  • Количество SNP - 269/li>
  • Количество гэпов -46 (4%)
  • Стоит отметить, что контиг картировался на хромосому в обратном направлении.

    photo

    Рис 2.

    Пояснение к Рис.3.

    Фрагмент контига 14198-23677 выровнился на участок хромосомы с координатами 266073-275551

  • Identity 79%
  • Количество SNP - 2049
  • Количество гэпов - 361 (3%)
  • Фрагмент контига 23736-31957 выровнился на участок хромосомы с координатами 275566-283706

  • Identity 76%
  • Количество SNP - 2079
  • Количество гэпов - 429 (5%)
  • Фрагмент контига 8077-11648 выровнился на участок хромосомы с координатами 260224-263784

  • Identity 77%
  • Количество SNP - 829
  • Количество гэпов -101 (2%)
  • Фрагмент контига 37135-40501 выровнился на участок хромосомы с координатами 288181-291560

  • Identity 78%
  • Количество SNP - 769
  • Количество гэпов -99 (2%)
  • Фрагмент контига 37135-40501 выровнился на участок хромосомы с координатами 288181-291560

  • Identity 78%
  • Количество SNP - 769
  • Количество гэпов -99 (2%)
  • На DotPlotе видно, что произошла делеция (разрыв, так называемой линии)

    photo

    Рис 3.