Сборка de novo

Сборка генома de novo бактерии Buchnera aphidicola осуществлялась из ридов с кодом SRR4240378.

Подготовка чтений и сборка генома

  • Скачивание архива с чтениями:

    wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz

    Получили архив SRR4240378.fastq.gz с весом 91M

  • Сбор адаптерв для Illumina в один файл adapters.fasta:

    cat /mnt/scratch/NGS/adapters/* > adapters.fasta

  • Удаление остатков адаптеров:

    java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240378.fastq.gz SRR4240378_without_adptrs.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7

    Получение архива SRR4240378_without_adptrs.fastq.gz с весом 89M

    Количество чтений сократилось с 4420587 до 4338744, то есть 81843 (1.85%) оказались адаптерами.

  • Удаление с правых концов чтений нуклеотидов с качеством ниже 20, с оставлением только таких чтений, длина которых не меньше 32 нуклеотидов:

    java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240378_without_adptrs.fastq.gz SRR4240378_quality.fastq.gz TRAILING:20 MINLEN:32

    Количество чтений сократилось с 4338744 до 4154738, то есть 184006 (4.24%) оказались плохого качества.

    Получили архив SRR4240378_quality.fastq.gz с весом 84M

  • Подготовка k-меров длины k=31 с помощью программы velveth:

    velveth ./SRR4240378_kmers 31 -short -fastq.gz SRR4240378_quality.fastq.gz

  • Cборка на основе k-меров c помощью программы velvetg:

    velvetg SRR4240378_kmers

Особенности контигов

Для полученной сборки N50=7028

ID контига Длина(bp) Покрытие
8 36746 20.017199
57 19371 20.546642
15 16745 20.901762
Таблица 1. Три самых длинных контига

Медианное значение покрытия контигов составляет 17.65, примем его за "типичное".

Примеры аномально большого(1) и малого(2) покрытия:

  1. Контиг 129 с покрытием 148170.0, с длиной 1
  2. Контиг 367 с покрытием 1.0, с длиной 1

Анализ

Сравнение программой megablast каждого из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).

NODE_8_length_36746_cov_20.017199
Рис1. Карта локального сходства для контига NODE_8_length_36746_cov_20.017199, полученная алгоритмом megablast

Контиг выравнился с обратной цепью референсного генома, причем крупных перестроек не наблюдается(транслокаций, делеций, инверсий),а число однонуклеотидных замен мало.

% identity alignment length mismatches gap opens q. start q. end
75.609 8614 1756 261 500370 508806
78.569 6234 1143 147 510441 516539
74.074 6264 1306 249 481997 488128
75.283 4325 913 123 496111 500325
80.144 1385 260 15 493487 494864
82.096 687 107 15 480874 481548
90.000 120 7 4 495033 495148
Таблица 2.1. Выравнивания контига NODE_8_length_36746_cov_20.017199 с референсным геномом, полученное алгоритмом megablast.
NODE_57_length_19371_cov_20.546642
Рис2. Карта локального сходства для контига NODE_57_length_19371_cov_20.546642, полученная алгоритмом megablast

Контиг выравнился с обратной цепью референсного генома, причем крупных перестроек не наблюдается(транслокаций, делеций, инверсий),зато число однонуклеотидных замен значительно (примерно 1/5 часть длины выравненного участка).

% identity alignment length mismatches gap opens q. start q. end
73.428 9826 2148 363 573092 582689
75.630 2778 567 88 584329 587055
Таблица 2.2. Выравнивания контига NODE_57_length_19371_cov_20.546642 с референсным геномом, полученное алгоритмом megablast.
NODE_15_length_16745_cov_20.901762
Рис3. Карта локального сходства для контига NODE_15_length_16745_cov_20.901762, полученная алгоритмом megablast

Контиг выравнился с небольшим участком обратной цепью референсного генома, причем крупных перестроек не наблюдается(транслокаций, делеций, инверсий),зато значительно число однонуклеотидных замен.

% identity alignment length mismatches gap opens q. start q. end
77.806 7538 1426 181 144368 151796
Таблица 2.3. Выравнивания контига NODE_15_length_16745_cov_20.901762 с референсным геномом, полученное алгоритмом megablast.