Практикум 15

Сборка генома de novo

Скачивание архива с чтениями

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz

Подготовка чтений программой trimmomatic

Объединение файлов с адаптерами для Illumina в один файл

cat /mnt/scratch/NGS/adapters/* > adapters.fa

Удаление остатков адаптеров

TrimmomaticSE -phred33 SRR4240361.fastq.gz SRR4240361_trim1.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7 -trimlog trimmomatic1.log

Было удалено 34532 (0.47%) чтений

Затем удаляем с правых концов чтений нуклеотиды с качеством ниже 20, оставляем чтения, у которых длина не меньше 32 нуклеотидов

TrimmomaticSE -phred33 SRR4240361_trim1.fastq.gz SRR4240361_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trimmomatic2.log

Было удалено 403754 (5.58%) чтений

До очистки размер файла был 193М, после первой - 192М, после второй - 178М

Запуск velveth

Эта программа на основе предоставленного файла подготавливает k-меры длины 31

velveth velv 31 -short -fastq.gz SRR4240361_trim2.fastq.gz

Запуск velvetg

Velvetg осуществляет сборку на основе k-меров

velvetg velv

В результате были получены контиги с N50=25683

С помощью команды sort -r -n -k 2 stats.txt | less найдем три самых больших контига

Таблица 1. Характеристики контигов

Номер контига Длина Покрытие
6 49238 26.660851
2 45555 26.450466
34 43866 23.514977

Посмотрим аномальное покрытие с помощью команды cut -f6 stats.txt | sort -h

Можно заметить, что есть аномально маленькое (1) и аномально большое покрытие (212829, 865 и 561)

Анализ сборки

Три самых больших контига были картированы на хромосому Buchnera aphidicola (GenBank/EMBL AC — CP009253)

6-й контиг картируется на хромосому в 5 участках:

Участок Идентичные нуклеотиды, % Гэпы, %
127825 to 140555 75% 4%
153752 to 161738 78% 3%
144368 to 151796 78% 3%
161898 to 166752 80% 2%
166750 to 173180 76% 2%
picture
Рис.1. Dot Plot

По рисунку видно, что просиходили делеции и мутации между гомологичными участками

2-й контиг картируется на хромосому в 9 участках с негомологичными промежутками между ними:

Участок Идентичные нуклеотиды, % Гэпы, %
467412 to 474667 77% 2%
462496 to 467421 77% 3%
442877 to 445895 80% 1%
474844 to 480660 74% 4%
449411 to 454069 75% 3%
481997 to 485679 77% 3%
441135 to 442817 79% 1%
480874 to 481545 82% 2%
440755 to 440944 89% 4%
picture
Рис.2. Dot Plot

По рисунку видно, что запись контига переврнута (т.к наклон Dot Plot отрицательный), также произошла делеция

34-й контиг картируется на хромосому в 7 участках с негомологичными промежутками между ними:

Участок Идентичные нуклеотиды, % Гэпы, %
266073 to 275551 79% 3%
275566 to 283706 76% 5%
260224 to 263784 77% 2%
288181 to 291560 78% 2%
253223 to 257546 73% 4%
285200 to 286535 76% 2%
283963 to 285070 76% 4%
picture
Рис.3. Dot Plot

По рисунку видно, что просиходили делеции между гомологичными участками