Практикум 14. Сборка de novo
Task 1
Работа велась c ридами проекта по секвенированию с кодом доступа SRR4240357. Использованные команды:
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE
-phred33 SRR4240357.fastq SRR4240357_adless.fastq ILLUMINACLIP:adapters.fasta:2:7:7 | Обрезание адаптеров |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
SE -phred33 SRR4240357_adless.fastq SRR4240357_good.fastq TRAILING:20 MINLEN:32 | Отброс ридов малой длины, обрезка с конца
ридов оснований плохого качества |
velveth de_novo 31 -short -fastq SRR4240357_good.fastq | Подготовка k-меров длины 31 |
velvetg de_novo | Сборка с помощью графов де Брёйна |
Этап | Число ридов | Вес файла |
Первоначально | 8098979 | 904863440 |
Обрезание адаптеров | 7937704 | 886091848 |
Отбор по качеству и длине | 7000036 | 760630874 |
Граф выдал 372 предполагаемых контига. N50 - 18779.
Среди этих контигов были те, среднее покрытие которых сильно отклонялось от средней величины (24-30).
NODE_31_length_950_cov_309.366302
NODE_42_length_616_cov_296.120117
NODE_135_length_229_cov_4.882096
Видно, что длина у них не очень.
Далее были проанализированы 3 самых длинных контига (самый длинный - 68573).
Контиг |
NODE_5_length_68573_cov_29.759817 |
NODE_12_length_38871_cov_27.715366 |
NODE_17_length_46727_cov_28.502407 |
Координаты(на геноме) |
451729-515859 |
208017-236859 |
389348-429483 |
Identity |
77.03% |
80.83% |
74.06% |
Coverage |
68% |
59% |
59% |
Max score |
4050 |
3195 |
3589 |
Цепь |
plus/minus |
plus/plus |
plus/plus |
Частей выравнивания |
11 |
8 |
7 |
Dot Blot |
![](a5blot.png) |
![](a12blot.png) |
![](a17blot.png) |
НАЗАД