Практикум 14. Сборка de novo

Для даного практикума была создана директория /mnt/scratch/NGS/zzzem1103/pr14

Код доступа проекта по секвенированию - SRR4240379.

Архив с чтениями был скачен с помощью следущей команды:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240379/SRR4240379.fastq.gz

1.Подготовка чтений программой trimmomatic

Сначала нобходимо было удалить остатки адаптеров.

Для этого был создан единый файл в рабочей директории с вариантами адаптеров Illumina с помощью команды:

cat NexteraPE-PE.fa TruSeq2-PE.fa TruSeq2-SE.fa TruSeq3-PE-2.fa TruSeq3-PE.fa  TruSeq3-SE.fa>/mnt/scratch/NGS/zzzem1103/pr14/adapters.fasta

Для удаления адаптеров использовалась команда:

TrimmomaticSE -phred33 SRR4240379.fastq.gz trimm.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7

Итог: Input Reads: 7400155 Surviving: 7269852 (98.24%) Dropped: 130303 (1.76%)

1.76% последовательностей чтений оказались адаптерами

Затем с помощью следующей команды были удалены с правых концов чтений нуклеотиды качеством ниже 20 чтения с длиной менее 32.

TrimmomaticSE -phred33 trimm.fastq.gz trimm2.fastq.gz TRAILING:20 MINLEN:32 

Удалено 4.07%

До очистки размер файла 167M, после 156M

2. Запуск программы velvetg

Подготовка k-меров длины 31 была выполнена с помощью команды:

velveth k31 31 -short -fastq.gz trimm2.fastq.gz

Затем была запущена прогарамма velvetg для осуществления сборки de-novo на основе k(31)-меров:

velvetg k31 

В директрии k31 находились 8 файлов contigs.fa; Graph; LastGraph; Log; PreGraph; Roadmaps; Sequences; stats.txt

N50 = 25646

Длины и покрытия трех самых длинных контигов были найдены с помощью конвейера:

grep '^>' contigs.fa | tr '_' '\t' | cut -f 4,6 | sort -nrk 1 | head -n3 | less

3 самых длинных контига и их покрытия:

1) 49 912 bp, 35.907237

2) 49 262 bp, 34.772177

3) 33 085 bp, 36.259030

Были найдены 2 контига с аномально большим показателем покрытия с 1 bp и покрытием 474299.000000; 1 bp и покртытием 2694.000000 ID контига регион выравнивания процент идентичности

3. Анализ

3 самых больших контига были сравнены с хромосомой Buchnera aphidicola (AC — CP009253) с помощью программы megablast.

Выравнивание с контигом, длины 49 912 дало следующие результаты

Номер находки Координаты на хромосоме Идентичность Гэпы
1 127825-140555 74.885 426/13008
2 153752-161738 77.696% 191/8169
3 144368-151796 77.800% 178/7536
4 161898-166752 79.601% 89/4912
5 166750-173180 76.185% 138/6517
Рис 1.Megablast. Ось X - контиг, ось Y - хромосомой Buchnera aphidicola(CP009253)

С контигом длины 49 262 нашлось следующее:

Номер находки Координаты на хромосоме Идентичность Гэпы
1 500370-508806 75.618% 265/8617
2 510438-516539 78.553% 140/6234
3 523105-528679 76.851% 159/5685
4 481997-488106 74.078% 241/6238
5 517766-521500 77.240% 81/3783
6 496111-500325 75.278% 121/4324
7 493487-494864 80.130% 13/1384
8 480874-481545 82.216% 18/686
9 528794-529211 84.000% 20/425
10 495033-495148 90.000% 4/90
Рис 2.Megablast. Ось X - контиг, ось Y - хромосомой Buchnera aphidicola(CP009253)

С контигом длины 33 085 был получен следующий результат

Номер находки Координаты на хромосоме Идентичность Гэпы
1 467412-474667 77.030% 170/7388
2 462496-467421 76.989 135/5015
3 474844-480660 74.171 200/5974
4 451729-454069 77.089 46/2370
Рис 3.Megablast. Ось X - контиг, ось Y - хромосомой Buchnera aphidicola(CP009253)