Сборка de novo
Код доступа проекта по секвенированию бактерии Buchnera aphidicola: SRR4240359
Для дальнейшей работы я скачала архив с чтениями в свою рабочую директорию /mnt/scratch/NGS/daria.kho/denovo. Команда выглядела так:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz
1. Подготовка чтений программой trimmomatic
Чтобы в конечном итоге собрать геном, необходимо проделать некоторые преобразования исходных чтений. На данном этапе удаляются возможные остатки адаптеров (параметр ILLUMINACLIP программы trimmomatic), а также удаляются нуклеотиды с качеством ниже 20 (TRAILING: 20) и чтения длиной менее 32 нуклеотидов (MINLEN:32).
#создание файла, в котором объединены все адаптеры для Illumina
cat /mnt/scratch/NGS/adapters/* >> adapters.fa
#I запуск trimmomatic: удаление адаптеров
java -jar /usr/share/java/trimmomatic.jar SE SRR4240359.fastq.gz -threads 7 trim_adapters.fastq.gz -trimlog
trim_adapters.log ILLUMINACLIP:adapters.fa:2:7:7
#Input Reads: 13557938 Surviving: 13502066 (99.59%) Dropped: 55872 (0.41%)
#II запуск trimmomatic: удаление нуклеотидов с плохим качеством
java -jar /usr/share/java/trimmomatic.jar SE trim_adapters.fastq.gz -threads 7 trimmed.fastq.gz -trimlog
trimmed.log TRAILING:20 MINLEN:32
#Input Reads: 13502066 Surviving: 12184080 (90.24%) Dropped: 1317986 (9.76%)
Так, остатками адаптеров оказались 0.41% последовательностей чтений, что говорит о том, что в чтениях уже почти не было адаптеров (при этом размер файла уменьшился с 445 до 443 МВ). Качество же чтений без адаптеров оказалось не самым высоким, так как после второго запуска trimmomatic были отфильтрованы значительные 9.76% чтений. Итоговый размер файла составил 385 МВ.
2. Подготовка k-меров с помощью программы velveth
Далее была запущена программа velveth, с помощью которой подготавливаются k-меры длины k=31 (максимально возможной при нашей длине чтений).
velveth velveth 31 -fastq.gz trimmed.fastq.gz -short
# опция -short указывает на то, что наши чтения короткие и непарные
В результате получили директорию velveth с тремя файлами: Log, Roadmaps, Sequences
3. Сборка на основе k-меров с помощью velvetg
Далее была запущена программа velvetg, которая осуществляет сборку на основе k-меров.
velvetg velveth &> velvet.log
#в лог-файл velvet.log сохранена некоторая информация о сборке
Так, из файла velvet.log получена следующая информация N50:70607.
Также в папке velveth был получен файл stats.txt c данными о контигах. Мною были отобраны самые длинные контиги. Информация о них представлена в таблице ниже.
ID | Длина | Покрытие | Последовательность |
---|---|---|---|
11 | 125674 | 44.550949 | contig11.fa |
1 | 108447 | 42.009184 | contig1.fa |
14 | 71403 | 39.411551 | contig14.fa |
Среднее покрытие составило около 615. Контиг с ID 111 имеет аномально большое покрытие, равное 411220. Контиги с самым маленьким покрытием (таких несколько) имеют покрытие, равное 1. Их ID: 662, 669, 705, 706.
4. Анализ с помощью megablast
Далее с помощью программы megablast было проведено сравнение каждого из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Контиг 11
Max Score | Total Score | E value | Per. Ident |
---|---|---|---|
8517 | 53627 | 0.0 | 82.85% |
Контиг соответствует референсной хромосоме на участке с 2004 по 94696 и с 599832 по 627104 нуклеотид и ложится на геном в обратной ориентации. Разрыв объясняется разным местом начала записи последовательностей в кольцевом геноме. В лучшем выравнивании 130 гэпов (1%).
Контиг 1
Max Score | Total Score | E value | Per. Ident |
---|---|---|---|
5465 | 36478 | 0.0 | 74.95% |
Контиг соответствует референсной хромосоме на участке с 98408 по 200246 нуклеотид и ложится на геном в прямой ориентации. В лучшем выравнивании 548 гэпов (4%).
Контиг 14
Max Score | Total Score | E value | Per. Ident |
---|---|---|---|
5121 | 32459 | 0.0 | 80.23% |
Контиг соответствует референсной хромосоме на участке с 202390 по 273028 нуклеотид и ложится на геном в обратной ориентации. В лучшем выравнивании 197 гэпов (2%).