Сборка de novo

Код доступа проекта по секвенированию бактерии Buchnera aphidicola: SRR4240359

Для дальнейшей работы я скачала архив с чтениями в свою рабочую директорию /mnt/scratch/NGS/daria.kho/denovo. Команда выглядела так:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz

1. Подготовка чтений программой trimmomatic

Чтобы в конечном итоге собрать геном, необходимо проделать некоторые преобразования исходных чтений. На данном этапе удаляются возможные остатки адаптеров (параметр ILLUMINACLIP программы trimmomatic), а также удаляются нуклеотиды с качеством ниже 20 (TRAILING: 20) и чтения длиной менее 32 нуклеотидов (MINLEN:32).

#создание файла, в котором объединены все адаптеры для Illumina
cat /mnt/scratch/NGS/adapters/* >> adapters.fa

#I запуск trimmomatic: удаление адаптеров
java -jar /usr/share/java/trimmomatic.jar SE SRR4240359.fastq.gz -threads 7 trim_adapters.fastq.gz -trimlog 
trim_adapters.log ILLUMINACLIP:adapters.fa:2:7:7 

#Input Reads: 13557938 Surviving: 13502066 (99.59%) Dropped: 55872 (0.41%)

#II запуск trimmomatic: удаление нуклеотидов с плохим качеством 
java -jar /usr/share/java/trimmomatic.jar SE trim_adapters.fastq.gz -threads 7 trimmed.fastq.gz -trimlog 
trimmed.log TRAILING:20 MINLEN:32

#Input Reads: 13502066 Surviving: 12184080 (90.24%) Dropped: 1317986 (9.76%)

Так, остатками адаптеров оказались 0.41% последовательностей чтений, что говорит о том, что в чтениях уже почти не было адаптеров (при этом размер файла уменьшился с 445 до 443 МВ). Качество же чтений без адаптеров оказалось не самым высоким, так как после второго запуска trimmomatic были отфильтрованы значительные 9.76% чтений. Итоговый размер файла составил 385 МВ.

2. Подготовка k-меров с помощью программы velveth

Далее была запущена программа velveth, с помощью которой подготавливаются k-меры длины k=31 (максимально возможной при нашей длине чтений).

velveth velveth 31 -fastq.gz trimmed.fastq.gz -short
# опция -short указывает на то, что наши чтения короткие и непарные

В результате получили директорию velveth с тремя файлами: Log, Roadmaps, Sequences

3. Сборка на основе k-меров с помощью velvetg

Далее была запущена программа velvetg, которая осуществляет сборку на основе k-меров.

velvetg velveth &> velvet.log
#в лог-файл velvet.log сохранена некоторая информация о сборке

Так, из файла velvet.log получена следующая информация N50:70607.

Также в папке velveth был получен файл stats.txt c данными о контигах. Мною были отобраны самые длинные контиги. Информация о них представлена в таблице ниже.

ID	Длина	Покрытие	Последовательность
11	125674	44.550949	contig11.fa
1	108447	42.009184	contig1.fa
14	71403	39.411551	contig14.fa

Среднее покрытие составило около 615. Контиг с ID 111 имеет аномально большое покрытие, равное 411220. Контиги с самым маленьким покрытием (таких несколько) имеют покрытие, равное 1. Их ID: 662, 669, 705, 706.

4. Анализ с помощью megablast

Далее с помощью программы megablast было проведено сравнение каждого из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Контиг 11

Max Score	Total Score	E value	Per. Ident
8517	53627	0.0	82.85%

Контиг соответствует референсной хромосоме на участке с 2004 по 94696 и с 599832 по 627104 нуклеотид и ложится на геном в обратной ориентации. Разрыв объясняется разным местом начала записи последовательностей в кольцевом геноме. В лучшем выравнивании 130 гэпов (1%).

Контиг 1

Max Score	Total Score	E value	Per. Ident
5465	36478	0.0	74.95%

Контиг соответствует референсной хромосоме на участке с 98408 по 200246 нуклеотид и ложится на геном в прямой ориентации. В лучшем выравнивании 548 гэпов (4%).

Контиг 14

Max Score	Total Score	E value	Per. Ident
5121	32459	0.0	80.23%

Контиг соответствует референсной хромосоме на участке с 202390 по 273028 нуклеотид и ложится на геном в обратной ориентации. В лучшем выравнивании 197 гэпов (2%).