Сборка генома de novo

Мы работали с данными проекта по секвенированию бактерии Buchnera aphidicola. Это короткие (длины 36) чтения, полученные по технологии Illumina.

Подготовка чтений программой trimmomatic

  1. Скачали и распаковали архив с чтениями.
    http://www.ebi.ac.uk/ena/data/view/SRR4240361

    До очистки размер файла 733M

  2. Удалили остатки адаптеров.
    java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240361.fastq SRR4240361_noad.fastq ILLUMINACLIP:adapters.fasta:2:7:7

    Выдача:

    Input Reads: 7272621 Surviving: 7238089 (99,53%) Dropped: 34532 (0,47%)
    

    Размер 729МВ

  3. Обрезали с концов чтений нуклеотиды с качеством ниже 20 и отбрали чтения длины не менее 30 java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240361_noad.fastq SRR4240361_trim.fastq TRAILING:20 MINLEN:30

    Выдача:

    Input Reads: 7238089 Surviving: 6881704 (95,08%) Dropped: 356385 (4,92%)
    

    690МВ после очистки

Подготовка k-меров

velveth 29 -fastq -short SRR4240361_trim.fastq

Использована программа velveth. Подготовлены k-меры длиной 29 для коротких непарных чтений (-short) из файла в формате fastq (-fastq). Выходные файлы записаны в папку velveth.

Cборка на основе k-меров

Произведена сборка на основе k-меров программой velvetg. Выдача программы:

Final graph has 1225 nodes and n50 of 49972,
max 155850, total 690891, using 0/6881704 reads
           

N50 = 49972; статистика в файле stats.txt контиги в файле contigs.fa. "Hормальными" являются только контиги длиной не менее 29. Oни прописываются в файле contigs.fa.

Статистика представлена в файле stats.xlsx. Удалены контиги длиной менее 29.

Данные о контигах с максимальной длиной представлены в таблице 1. Среднее покрытие контига составляет 12.07, но есть контиги с аномально большим и аномально малым покрытием. Данные о них представлены в таблице 2.

Таблица 1. Контиги с самой большой длиной

ID Длина Покрытие Последовательность
3 155850 33,079512 contig3.fa
11 85024 34,670528 contig11.fa
1 72780 35,51679 contig1.fa

Таблица 2. Контиги с аномально большим покрытием

ID Длина Покрытие Последовательность
73 36 130,75 contig73.fa
119 32 122,59375 contig119.fa
467 58 1,724138 contig467.fa

Анализ

Программой megablast сравнили каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Информация о выравниваниях представлена в таблице 3.

Таблица 3. Сравнение самых длинных контигов с хромосомой Buchnera aphidicola

ID Координаты в геноме Max score Total score Query cover E-value Ident Alignment length Gaps Mismatch
3 266073..275551 6154 63791 75% 0.0 7611 (79%) 9660 361 1688
11 389348..398726 3605 26639 54% 0.0 7106 (74%) 9592 363 2123
1 467412..474667 4047 31952 78% 0.0 5691 (77%) 7389 208 1490

Для контигов с аномально большим покрытием megablast не находит значимых совпадений. Эти последоваельности слишком короткие, поэтому невозможно достоверно выровнять их с последовательностю хромосомы, в которой 628164 нуклеотида.