Сборка de novo.

Команды

КомандаФункция
fastqc D.fastq
fastqc D_clean.fastq
Выдает информацию о качестве прочтений
cat *.* > adapters.fastaОбъединяет адаптеры в один файл
java -jar /usr/share/java/trimmomatic.jar SE -phred33 D.fastq D_no.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Очищает риды от адаптеров
java -jar /usr/share/java/trimmomatic.jar SE -phred33 D_no.fastq D_clean.fastq SLIDINGWINDOW:5:28 MINLEN:32 Убирает части ридов после любого окна длиной 5 со средним качеством ниже 28 и удаляет те прочтения, которые после очистки оказались короче 32 букв.

Изображения 'Per base sequence quality'
До чисткиПосле чистки

Некоторые характеристики чтений

До чисткиПосле чистки
Вес файла997 M849 M
Число прочтений38698693532244
Длина прочтений10032-100
%GC3334

Создание k-меров и построение генома.

Команды

КомандаФункция
velveth kmers 31 -short -fastq D_clean.fastqСоздаёт 31- меры(Чтения короткие и не парные.
velvetg kmersСобирает контиги

Последняя строчка, выданная программой velvetg на экран:

Final graph has 269125 nodes and n50 of 67, max 635, total 5570176, using 0/3532244 reads

N50 = 67, всего контигов 5570176

Максимальные длины контигов: 635(NODE_27320), 620(NODE_31266), 603(NODE_98836), с покрытиями соответственно: 2.76063, 6.08871, 8,996683.

Максимальное покрытие - 1064.516113(NODE_150715), у контига длиной 31.

Минимальное покрытие - 1.000000, у большого количества контигов с длинами от 31 до 69.

Megablast, наложение контигов на геном.

NODE_27320NODE_31266NODE_150715
ОрганизмArabidopsis thaliana Arabidopsis thaliana Arabidopsis thaliana
Оописаниеembryo defective 2410 (emb2410), mRNAstromal cell-derived factor 2-like protein precursor (SDF2), mRNAtransmembrane protein mRNA
Покрытие59%100%100%
% идентичности95%99%100%

©Шкарина Анастасия Николаевна 2016