Cборка de novo NEW

Таблица 1.

Использованные команды

Команда Описание
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 A.fastq A_noads.fastq ILLUMINACLIP:/P/y18/term3/block3/adapters/TruSeq2-SE.fa:2:7:7 Удаление адаптеров
-jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 A_noads.fastq A_tr.fastq SLIDINGWINDOW:5:28 Очистка чтений при помощи скользящего окна размером 5. После каждого окна удаляются риды качеством ниже 28.
-jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 A_tr.fastq A_tr_ht32.fastq MINLEN:32 удаление ридов длиной меньше 32
velveth velveth_ 31 -fastq -short A_tr_ht32.fastq Подготовка коротких(они по умолчанию читаются программой как короткие, но лишним не будет еще раз добавить) непарных контигов длиной 31
velveth velveth_ 31 -fastq -short A_tr_ht32.fastq Сборка контигов

Анализ и очистка чтений

Был изучен проект A.
Из 3869869(866 Мбайт) чтений "в живых" осталось 3537979(839 Мбайт) (убрано 8%) после удаления адаптеров и чистки.


Рис. 1 Качество чтений до отчистки


Рис. 2 Качество чтений после отчистки

Результаты работы velveth

Всего контигов:251219.
N50 = 68 .
Максимальная длина контига = 940
Информация о некоторых контигах пиведена в Таблице 2.

Таблица 2.

Самые длинные контиги

Номер Длина Покрытие
18372 940 5.36
14018 726 9.89
22293 643 3.86

Контиги с самыми высокими покрытиями

Номер Длина Покрытие
44335 77 739.04
115125 65 595.51
174657 70 606.72

Контиги с самыми низкими покрытиями

141466 64 1.0
141645 65 1.0
Всего с покрытием 1 1924

Выравнивания

С помощью Megablast были проанатированы самые длинный контиг и контиги с наилучшим и наихудшим покрытием.
Результаты в таблице 3

Таблица 3.

Контиги

Контиг номер Координаты участка хромосомы Идентичность Гэпы Цепь Покрытие Число выравниваний Организм Белок
18372 983-1952 100% 0 прямая 100% 66 Arabidopsis thaliana Cysteinyl-tRNA synthetase
44335 7697691-7697615 100% 0 обратная 100% 24 Arabidopsis thaliana genome assembly, chromosome: 5
141466 21380198-252161 95% 0 обратная 64% 9 Arabidopsis thaliana genome assembly, chromosome: 3