Cборка de novo

Таблица 1.

Использованные команды

Команда Описание
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240358.fastq SRR4240358_noads.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Удаление адаптеров
/nfs/srv/databases/ngs/kosar$ java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240358_noads.fastq SRR4240358_tr.fastq TRAILING:25 MINLEN:35 Очистка чтений
velveth velveth_ 31 -fastq SRR4240358_tr.fastq Подготовка k-меров
/nfs/srv/databases/ngs/kosar$ velvetg velveth_ Сборка контигов

Анализ и очистка чтений

Был изучен проект SRR4240358.
Из 10543839 чтений была убрана приблизительно половина 5082832 (48,21%) и удалены адаптеры.
Но это не сильно улучшило обшую картину, и качество чтений оставляет желать лучшего


Рис. 1 Качество чтений до отчистки


Рис. 2 Качество чтений после отчистки

Результаты работы velveth

Всего контигов: 613 .
N50 = 2472 .
Максимальная длина контига = 7879
Информация о некоторых контигах пиведена в Таблице 2.

Таблица 2.

Самые длинные контиги

Номер Длина Покрытие
36 7879 21.29
21 7501 23.99
129 7310 19.68

Контиги со слишком хорошим(аномальным покрытием) покрытиями

Номер Длина Покрытие
18 266 253.45
379 39 325.33
20 501 250.06

Аномальные покрытия

430 67 4.05
473 98 6.82
517 63 3.82

Выравнивания

С помощью Megablast(с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253)) были проанатированы самые длинные контиги.
Результаты в таблице 3

Таблица 3.

Контиги

Контиг номер Координаты участка хромосомы Идентичность Гэпы Цепь
36 260224-263784 2794(77%) 111(3%) прямая
21 108876-106360 1953(76%) 80(3%) обратная
129_1(1 участок) 248967-252161 2527(78%) 94(2%) прямая
129_2(2 участок) 247321-247596 240(85%) 6(2%) прямая