Файл был скопирован в рабочую директорию командой
cp /nfs/srv/databases/ngs/sas/2017/A.fastq.gz /nfs/srv/databases/ngs/liliavasilyeva/
и разархивирован командой
gunzip A.fastq.gz
Затем адаптеры из папки /P/y16/term3/block3/adapters были перемещены в рабочую директорию:
cp /P/y16/term3/block3/adapters/*.fa /nfs/srv/databases/ngs/liliavasilyeva/pr14/adapters
Файлы были объединены в один командой
cat *.fa > adapters.fasta
Адаптеры были удалены командой
java -jar /usr/share/java/trimmomatic.jar SE -phred33 A.fastq Atrim.fastq ILLUMINACLIP:adapters.fasta:2:7:7
Затем была использована программа trimmomatic для удаления части ридов с низким качеством и коротких ридов:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 Atrim.fastq Aq.fastq SLIDINGWINDOW:5:28 MINLEN:32
Рамка на пять нуклеотидов вырезает участок, если среднее значение качества на нуклеотид на этом участе меньше
28(SLIDINGWINDOW:5:28).
После этого риды короче 32 букв также вырезаются(MINLEN:32).
Объем файла до чистки 992 M, 3869869 ридов
После чистки 838 M, 3534630 ридов
Для создания 31-меров была использована команда
velveth assembly 31 -short -fastq Aq.fastq
После этого контиги были собраны командой
velvetg assembly
Из выхода программы: N50 - 69, максимальное покрытие контига - 727.255319
(длина 47, id 35022), минимальное покрытие - 1(длина 32,
id 17531).
Самые длинные контиги(длина, покрытие и id):
1. 940, 5.329787 (id 10682)
2. 708, 9.601695 (id 35694)
3. 643, 3.864697 (id 13934)
Все длины указаны в 31-мерах.
|
Аннотация лучшей находки |
Число выравниваний с контигом |
Покрытие контига |
Процент идентичности |
Самый длинный контиг |
Arabidopsis thaliana
Cysteinyl-tRNA synthetase,
class Ia family protein mRNA |
1 |
100% |
100% |
Контиг с большим покрытием |
Arabidopsis thaliana
hypothetical protein mRNA |
1 |
100% |
100% |
Контиг с меньшим покрытием |
Arabidopsis thaliana
phosphoglycerate kinase
(PGK), mRNA |
1 |
48% |
100% |