Сборка генома de novo
Мы работали с данными проекта по секвенированию бактерии Buchnera aphidicola. Это короткие (длины 36) чтения, полученные по технологии Illumina.
Подготовка чтений программой trimmomatic
- Скачали и распаковали архив с чтениями.
http://www.ebi.ac.uk/ena/data/view/SRR4240361До очистки размер файла 733M
- Удалили остатки адаптеров.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240361.fastq SRR4240361_noad.fastq ILLUMINACLIP:adapters.fasta:2:7:7Выдача:
Input Reads: 7272621 Surviving: 7238089 (99,53%) Dropped: 34532 (0,47%)Размер 729МВ
- Обрезали с концов чтений нуклеотиды с качеством ниже 20 и отбрали чтения длины не менее 30
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240361_noad.fastq SRR4240361_trim.fastq TRAILING:20 MINLEN:30
Выдача:
Input Reads: 7238089 Surviving: 6881704 (95,08%) Dropped: 356385 (4,92%)690МВ после очистки
Подготовка k-меров
velveth 29 -fastq -short SRR4240361_trim.fastq
Использована программа velveth. Подготовлены k-меры длиной 29 для коротких непарных чтений (-short) из файла в формате fastq (-fastq). Выходные файлы записаны в папку velveth.
Cборка на основе k-меров
Произведена сборка на основе k-меров программой velvetg. Выдача программы:
N50 = 49972; статистика в файле stats.txt контиги в файле contigs.fa. "Hормальными" являются только контиги длиной не менее 29. Oни прописываются в файле contigs.fa.
Статистика представлена в файле stats.xlsx. Удалены контиги длиной менее 29.Данные о контигах с максимальной длиной представлены в таблице 1. Среднее покрытие контига составляет 12.07, но есть контиги с аномально большим и аномально малым покрытием. Данные о них представлены в таблице 2.
Таблица 1. Контиги с самой большой длиной
ID | Длина | Покрытие | Последовательность |
---|---|---|---|
3 | 155850 | 33,079512 | contig3.fa |
11 | 85024 | 34,670528 | contig11.fa |
1 | 72780 | 35,51679 | contig1.fa |
Таблица 2. Контиги с аномально большим покрытием
ID | Длина | Покрытие | Последовательность |
---|---|---|---|
73 | 36 | 130,75 | contig73.fa |
119 | 32 | 122,59375 | contig119.fa |
467 | 58 | 1,724138 | contig467.fa |
Анализ
Программой megablast сравнили каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Информация о выравниваниях представлена в таблице 3.Таблица 3. Сравнение самых длинных контигов с хромосомой Buchnera aphidicola
ID | Координаты в геноме | Max score | Total score | Query cover | E-value | Ident | Alignment length | Gaps | Mismatch |
---|---|---|---|---|---|---|---|---|---|
3 | 266073..275551 | 6154 | 63791 | 75% | 0.0 | 7611 (79%) | 9660 | 361 | 1688 |
11 | 389348..398726 | 3605 | 26639 | 54% | 0.0 | 7106 (74%) | 9592 | 363 | 2123 |
1 | 467412..474667 | 4047 | 31952 | 78% | 0.0 | 5691 (77%) | 7389 | 208 | 1490 |
Для контигов с аномально большим покрытием megablast не находит значимых совпадений. Эти последоваельности слишком короткие, поэтому невозможно достоверно выровнять их с последовательностю хромосомы, в которой 628164 нуклеотида.