Сборка de novo

Подготовка к работе

Архив с чтениями был скачан с помощью команды:
wget https://www.ebi.ac.uk/ena/browser/view/SRR4240358 

Подготовка чтений программой trimmomatic

Команды:

Объединение файлов с информацией об адаптерах:
cat *.fa > adapters.fasta

Удаление адаптеров:
java -jar /usr/share/java/trimmomatic.jar SE SRR4240358.fastq.gz -threads 5 no_adapter.fastq.gz -trimlog trim_adapter.log ILLUMINACLIP:adapters.fasta:2:7:7

Удаление нуклеотидов с низким качеством:
java -jar /usr/share/java/trimmomatic.jar SE no_adapter.fastq.gz -threads 5 trimmed.fastq.gz -trimlog trim_poorq.log TRAILING:20 MINLEN:32

Результаты
Размеры:
  • 469 MB - до удаления адаптеров
  • 462 MB - после удаления адаптеров
  • 340 MB - после удаления нуклеотидов с низким качеством

  • Удаление адаптеров: 10543839 Surviving: 10368884 (98.34%) Dropped: 174955 (1.66%)
  • Удаление нуклеотидов с низким качеством: 10368884 Surviving: 8016437 (77.31%) Dropped: 2352447 (22.69%)

  • Адаптеры занимали небольшую часть чтений (менее 2%), однако чистка чтений привела к удалению более чем 22% нуклеотидов.

    Работа с программой velveth

    Создание папки kmers_velvet с k-мерами длины 31:
    velveth kmers_velvet 31 -fastq.gz trimmed.fastq.gz -short

    Сборка по созданным k-мерам:
    velvetg kmers_velvet &> velvetg.log

    Длина N50 - 8600 bp. В таблице ниже приведены самые длинные контиги.
    ID Длина Покрытие Ссылка на последовательность
    56 19821 29.475859 contig56.fasta
    34 18714 29.922678 contig34.fasta
    40 16436 30.793624 contig40.fasta

    Выравнивание


    Далее был запущен BLAST с каждым из вышеописанных контигов и геномом бактерии Buchnera aphidicola.
    Контиг 56
  • Участок хромосомы: 496111-500325, 500370-508806, 510438-514772
  • Участок контига: 948-5226, 15478-19851, 5342-13787
  • Identities: 3256/4324(75%), 3577/4393(81%), 6516/8617(76%)
  • Gaps: 154/4324(3%), 77/4393(1%), 351/8617(4%)
  • dotplot
    Dotplot к контигу 56. Виден положительный наклон кривой, значит, контиг записан в прямом направлении. Также видна одна делеция


    Контиг 34
  • Участок хромосомы: 17962-20171, 23067-26764, 14727-17919, 8599-11103, 20358-22183, 13994 to 14465
  • Участок контига: 9387-11586, 15025-18744, 6139-9309, 1-2495, 12176-14000, 5505-5979
  • Identities: 1896/2220(85%), 2935/3781(78%), 2453/3228(76%), 1982/2530(78%), 1508/1850(82%), 392/478(82%)
  • Gaps: 30/2220(1%), 144/3781(3%), 92/3228(2%), 60/2530(2%), 49/1850(2%), 9/478(1%)
  • dotplot
    Dotplot к контигу 34. Виден положительный наклон кривой, значит, контиг записан в прямом направлении. Также видны несколько делеций


    Контиг 40
  • Участок хромосомы: 467412-474242, 462496-467421
  • Участок контига: 3-6889, 6916-11860
  • Identities: 5344/6962(77%), 3864/5019(77%)
  • Gaps: 206/6962(2%), 164/5019(3%)
  • dotplot
    Dotplot к контигу 40. Виден отрицательный наклон кривой, значит, контиг записан в обратном направлении. Примечательно, что на данном контиге не происходило делеций/вставок/других крупных изменений генома