Сборка de novo


Подкотовка чтений

  • Чтения были скачены, с помощью данной команды:
    wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz

  • Далее собираем адаптеры в один файл:
    cat /mnt/scratch/NGS/adapters/* >> adapters.fasta

  • Теперь удаляем возможные остатки адаптеров:
    java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240356.fastq.gz trimmed.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 2>trim.log
    2.04% (153091) последовательностей чтений оказалось остатками адаптеров.

  • Далее удаляем c правых концов чтений нуклеотиды с качеством ниже 20 и длиной больше 32 нуклеотиддов.
    java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 trimmed.fastq.gz trimmed2.fastq.gz TRAILING:20 MINLEN:32 2>trim2.log
    Было удалено 4.15% (305092) чтений. Самый исходный файл весил 174.26 мегабайт, а полученный 162.02 мегабайт.

  • Получение k-меров длины 31

  • Чтобы получить k-меры длины 31 выполним следующую команду:
    velveth assemble 31 -fastq.gz -short trimmed2.fastq.gz 2> velveth.log
    В созданной директории 'assemble' мы получили три файла: Log, Roadmaps, Sequences.

  • Сборка

  • Запустим программу velvetg:
    velvetg assemble &> velvetg.log
    Из выхода, можем узнать, что N50 = 65554

  • Далее узнаем длину самых длинных контигов (команду запускаем непосредственно в директории 'assemble'):
    sort -n -k 2 -r stats.txt | head

  • alignment
  • Контиги с аномально большим или аномально малым покрытием (команды запускаем непосредственно в директории 'assemble'):
    sort -n -k 6 -r stats.txt | head
    sort -n -k 6 stats.txt | head
    Аномально большое покрытие встречается у контиг с ID64 (покрытие - 266951.0). Несколько контигов с покрытием 1.0 представлены ниже. (К примеру ID249, ID251, ID272)

  • alignment

    alignment


    Анализ

    Выравним самые длинные контиги - ID: 6, 8, 10 с геномом Buchnera aphidicola (GenBank/EMBL AC — CP009253) с помощью megablast. Анализ каждого выравнивания можно посмотреть ниже.

    Контиг 8.Координаты на хромосоме 451729 - 555905. Покрытие - 75%. Per. Identity - 81.46%. Суммарный вес выравнивания - 50932. Имеется 5 разрывов, самый крупный примерно 10000 нуклеодитов. Карту локального сходства можно посмотреть на Рисунке 1. Выдача Blast

    Рисунок 1. Карта локального сходства контига 8 и хромосомы Buchnera aphidicola

    Контиг 6.Координаты на хромосоме 220869 - 323043. Покрытие - 74%. Per. Identity - 78.76%. Суммарный вес выравнивания - 43281. Имеется 9 разрывов, самый крупный примерно 7000 нуклеодитов. Карту локального сходства можно посмотреть на Рисунке 2. Выдача Blast

    Рисунок 2. Карта локального сходства контига 6 и хромосомы Buchnera aphidicola

    Контиг 10.Координаты на хромосоме 528794 - 555905. Покрытие - 65%. Per. Identity - 74.88%. Суммарный вес выравнивания - 30801. Имеется 5 разрывов, самый крупный примерно 7000 нуклеодитов. Карту локального сходства можно посмотреть на Рисунке 3. Выдача Blast

    Рисунок 3. Карта локального сходства контига 10 и хромосомы Buchnera aphidicola