Сборка генома de-novo (NGS)

1. Триммирование чтений

В этом пратикуме были использованы чтения с кодом доступа SRR4240359.

Скачивание архива с помощью команды wget:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz

Для того, чтобы дальше удалить адаптеры, подготовим файл, где будут лежать все адаптеры (которые находятся в папке /mnt/scratch/NGS/adapters). Для этого воспользуемся следующей командой:

cat /mnt/scratch/NGS/adapters/* > adapters.fa

Удалим адаптеры из чтений:

TrimmomaticSE -phred33 SRR4240359.fastq.gz tr.fq.gz ILLUMINACLIP:adapters.fasta:2:7:7

Теперь с правых концов чтений избавимся от нуклеотидов с качеством ниже 20 (параметр - TRAILING:20) и оставим чтения, длина которых не меньше 32 нуклеотидов (параметр - MINLEN:32):

TrimmomaticSE -phred33 tr.fq.gz trimmomatic.fq.gz TRAILING:20 MINLEN:32

2. Программа velveth (подготовка k-меров)

Для сборки de novo подготовим k-меры длины k=31, т.к. чтения после триммирования не короче 30 нуклеотидов. Используем программу velveth. Все результаты находятся в /mnt/scratch/NGS/daria.yastreb/pr15/velvet.

Параметр -short — короткие непарные чтения.

velveth ./velvet 31 -fastq.gz -short trimmomatic.fq.gz

3. Программа velvetg (сборка на основе k-меров)

Запустим сборку из получившихся k-меров с помощью команды:

velvetg ./velvet

В папке velvet лежат следующие файлы:

contigs.fa  Graph  LastGraph  Log  PreGraph  Roadmaps  Sequences  stats.txt
  				

Файл Log содержит информацию о N50 = 70 607. В файле stats.txt можно посмотреть самые длинные контиги и их покрытие. Таблица stats.txt была отсортирована с помощью команды: sort -nk 2 stats.txt. Следующие контиги оказались самыми длинными: ID 11 (длина - 125 674, покрытие - 44,55) ID 1 (длина - 108 447, покрытие - 42,00), ID 14 (длина - 71 403, покрытие - 39,41).

Один из контигов с аномально большим покрытием: ID 111 (длина - 1, покрытие - 411220).

4. Анализ с помощью megablast

Сравним программой megablast каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Задание было выполнено на сайте.

Ниже представлены карты локального сходства, характеристики каждого контига отображены в таблицах.

ID 1

Рис. 1. Картирование контига NODE_1 на геном.
Рис. 1. Картирование контига NODE_1 на геном. Горизонтальная ось - Buchnera aphidicola
Рис. 2. Картирование контига NODE_1 на геном.

ID 11

Рис. 2. Картирование контига NODE_11 на геном.
Рис. 2. Картирование контига NODE_11 на геном. Горизонтальная ось - Buchnera aphidicola
Рис. 2. Картирование контига NODE_1 на геном.

ID 14

Рис. 3. Картирование контига NODE_14 на геном.
Рис. 3. Картирование контига NODE_14 на геном. Горизонтальная ось - Buchnera aphidicola
Рис. 3. Картирование контига NODE_14 на геном.