Практикум 14. Сборка de novo

Файл был скопирован в рабочую директорию командой
cp /nfs/srv/databases/ngs/sas/2017/A.fastq.gz /nfs/srv/databases/ngs/liliavasilyeva/
и разархивирован командой
gunzip A.fastq.gz
Затем адаптеры из папки /P/y16/term3/block3/adapters были перемещены в рабочую директорию:
cp /P/y16/term3/block3/adapters/*.fa /nfs/srv/databases/ngs/liliavasilyeva/pr14/adapters
Файлы были объединены в один командой
cat *.fa > adapters.fasta
Адаптеры были удалены командой
java -jar /usr/share/java/trimmomatic.jar SE -phred33 A.fastq Atrim.fastq ILLUMINACLIP:adapters.fasta:2:7:7
Затем была использована программа trimmomatic для удаления части ридов с низким качеством и коротких ридов:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 Atrim.fastq Aq.fastq SLIDINGWINDOW:5:28 MINLEN:32
Рамка на пять нуклеотидов вырезает участок, если среднее значение качества на нуклеотид на этом участе меньше 28(SLIDINGWINDOW:5:28). После этого риды короче 32 букв также вырезаются(MINLEN:32). Объем файла до чистки 992 M, 3869869 ридов После чистки 838 M, 3534630 ридов Для создания 31-меров была использована команда
velveth assembly 31 -short -fastq Aq.fastq
После этого контиги были собраны командой
velvetg assembly
Из выхода программы: N50 - 69, максимальное покрытие контига - 727.255319 (длина 47, id 35022), минимальное покрытие - 1(длина 32, id 17531). Самые длинные контиги(длина, покрытие и id): 1. 940, 5.329787 (id 10682) 2. 708, 9.601695 (id 35694) 3. 643, 3.864697 (id 13934) Все длины указаны в 31-мерах.
Аннотация лучшей находки Число выравниваний с контигом Покрытие контига Процент идентичности
Самый длинный контиг Arabidopsis thaliana Cysteinyl-tRNA synthetase, class Ia family protein mRNA 1 100% 100%
Контиг с большим покрытием Arabidopsis thaliana hypothetical protein mRNA 1 100% 100%
Контиг с меньшим покрытием Arabidopsis thaliana phosphoglycerate kinase (PGK), mRNA 1 48% 100%