Практикум №15

Сборка de novo

Для выполнения данного задания нам сначала нужно: найти и скачать архив с чтениями в рабочую директорию, подготовить чтения с помощью программы trimmomatic, сформировать k-меры и, наконец, осуществить сборку.

SRR4240358 - мой код доступа проекта по секвенированию бактерии Buchnera aphidicola str. Tuc7.

1)Скачивание

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz

2)Создание файла со всевозможными адаптерами

cat /mnt/scratch/NGS/adapters/* > ad.fa

(Он нам понадобится для дальнейшего вырезания адаптеров)

3)Удаление адптеров

TrimmomaticSE -phred33 SRR4240358.fastq.gz 1stage.fastq.gz ILLUMINACLIP:ad.fa:2:7:7 -threads 15 -trimlog trimmomatic.log

Результатом стало удаление (отбрасывание) 174955 (1.66%) чтений.

4)Удаление нуклеотидов (3' конца), которые не прошли порог качества (<20) и выбор чтений длиннее 32 нуклеотидов

TrimmomaticSE -phred33 1stage.fastq.gz 2stage.fastq.gz TRAILING:20 MINLEN:32 -threads 15 -trimlog trimmomatic.log

Результатом стало удаление (отбрасывание) 2352447 (22.69%) чтений.

5)Формирование k-меров

(Длина не менее 30 нуклеотидов => k-меры должны быть длины 31.)

velveth km 31 -short -fastq.gz 2stage.fastq.gz

6)Сборка генома

velvetg km

Итоги:

N50=8600 (см файл Log)

Самый длинный контиг:

Id=56

Длина 19821

Покрытие 29,475%

Второй самый длинный контиг:

Id=34

Длина 18714

Покрытие 29,923%

Третий самый длинный контиг:

Id=40

Длина 16436

Покрытие 30,793%

Есть довольно много контингов с аномально большим покрытием:

№18 - с покрытием 412,1

№41 - с покрытием 266,5

№49 - с покрытием 281,5

№136 - с покрытием 111578,0

У большинства из них маленькая длина №18 - 60, №136 - 1, но и тут есть исключения №41 - 949, №49 - 622.

Контингов с аномально большим покрытием много, поэтому для примера я выбрала только эти 4.

Анализ

Построенные карты локального выравнивания 3 самых длинных контигов с хромосомой Buchnera aphidicola:

DNA

Карта локального выравнивания 1ого контига(Id=56)

DNA

Карта локального выравнивания 2ого контига(Id=34)

DNA

Карта локального выравнивания 3его контига(Id=40)