Сборка de novo

Подготовка чтений

Для того чтобы собрать геном de novo скачаем из ENA чтения из проекта по секвенированию бактерии Buchnera aphidicola str. Tuc7 (Acyrthosiphon pisum) с AC SRR4240358 (команда: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz). Далее для подготовки чтений используем программу trimmomatic, т.е. сначала удалим адаптеры (1), а потом удалим с правых концов чтений нуклеотиды с качеством ниже 20 и оставим чтения, длина которых не меньше 32 нуклеотидов.

  1. java -jar /usr/share/java/trimmomatic.jar SE SRR4240358.fastq.gz trimmed_SRR4240358.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fasta:2:7:7
  2. java -jar /usr/share/java/trimmomatic.jar SE trimmed_SRR4240358.fastq.gz trimmed2_SRR4240358.fastq.gz -trimlog trim2.log TRAILING:20 MINLEN:32

В результате после запуска первой команды(1) отсеялось 174955 (1.66%) прочтений и файл уменьшился на 7МБ (с 470МБ до 463МБ). После запуска второй команды отсеялось 2352447 (22.69%) прочтений.

Запуск программы velvet

С помощью команды velveth мы моздаем k-меры указанной длины, а с помощью команды velvetg мы уже собраем геном на основе созданных k-меров:

  1. velveth kmers 31 -fastq.gz trimmed2_SRR4240358.fastq.gz -short
  2. velvetg kmers &> assembly.log

Результат сборки

N50 сборки равен 8600. Также с помощью excel контиги были отсортированы по длине и найдено значение среднего покрытия. C excel-файлом можно ознакомиться по ссылке. Среднее значение покрытия равно 39,439.

Контиги Длина Покрытие
Node_56 19821 29,48
Node_34 18714 29,92
Node_40 16436 30,79
Таблица 1. Самые длинные контиги
Контиги Длина Покрытие
Node_18 60 412,10
Node_97 53 405,25
Node_129 106 332,88
Таблица 2. Контиги с аномально большим покрытием
Контиги Длина Покрытие
Node_283 69 3,96
Node_212 109 4,64
Node_307 106 332,88
Таблица 3. Контиги с аномально маленьким покрытием

Сравнение самых длинных контигов сборки с хромосомой Buchnera aphidicola

  1. 56 контиг выравнился на геном Buchnera aphidicola 3-мя фрагментами. Результаты выравнивания представлены в табоице 4.
  2. Координаты в геноме Число однонуклеотидных различий Число гэпов
    500370-508806 2101 345
    510438-514772 816 83
    496111-500321 1068 156
    Таблица 4. Результат выравнивания 56 контига.
  3. 34 контиг выравнился на геном Buchnera aphidicola 6-ю фрагментами. Результаты выравнивания представлены в табоице 5.
  4. Координаты в геноме Число однонуклеотидных различий Число гэпов
    17962-20171 324 30
    23067-26764 846 144
    14727-17919 775 92
    8599-11103 548 60
    20358-22183 342 49
    13994-14465 86 9
    Таблица 5. Результат выравнивания 56 контига.
  5. 40 контиг выравнился на геном Buchnera aphidicola 2-мя фрагментами. Результаты выравнивания представлены в табоице 6.
  6. Координаты в геноме Число однонуклеотидных различий Число гэпов
    467412-474242 1 618 206
    462496-467424 1155 164
    Таблица 5. Результат выравнивания 56 контига.