Практикум 14. Сборка de novo

Task 1

Работа велась c ридами проекта по секвенированию с кодом доступа SRR4240357. Использованные команды:

java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE 
-phred33 SRR4240357.fastq SRR4240357_adless.fastq ILLUMINACLIP:adapters.fasta:2:7:7
Обрезание адаптеров
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
 SE -phred33 SRR4240357_adless.fastq SRR4240357_good.fastq TRAILING:20 MINLEN:32
Отброс ридов малой длины, обрезка с конца ридов оснований плохого качества
velveth de_novo 31 -short -fastq SRR4240357_good.fastq
Подготовка k-меров длины 31
velvetg de_novo
Сборка с помощью графов де Брёйна

Граф выдал 372 предполагаемых контига. N50 - 18779.

Среди этих контигов были те, среднее покрытие которых сильно отклонялось от средней величины (24-30).

NODE_31_length_950_cov_309.366302

NODE_42_length_616_cov_296.120117

NODE_135_length_229_cov_4.882096

Видно, что длина у них не очень.

Далее были проанализированы 3 самых длинных контига (самый длинный - 68573).

ЭтапЧисло ридовВес файла
Первоначально8098979904863440
Обрезание адаптеров7937704886091848
Отбор по качеству и длине7000036760630874
Контиг NODE_5_length_68573_cov_29.759817 NODE_12_length_38871_cov_27.715366 NODE_17_length_46727_cov_28.502407
Координаты(на геноме) 451729-515859 208017-236859 389348-429483
Identity 77.03% 80.83% 74.06%
Coverage 68% 59% 59%
Max score 4050 3195 3589
Цепь plus/minus plus/plus plus/plus
Частей выравнивания 11 8 7
Dot Blot

НАЗАД