v Третий семестр

Ралдугина Василиса

Студентка Факультета биоинженерии и биоинформатики

МГУ имени М.В. Ломоносова

Обо мне

Главная

Сайт ФББ МГУ

Сборка de novo

В первую очередь я скопировала файл A.fastq.gz в рабочую директорию с помощью команды:
cp /nfs/srv/databases/ngs/sas/2017/A.fastq.gz /nfs/srv/databases/ngs/vasidze/
и разархивировала его командой
gunzip A.fastq.gz
Затем переместила адаптеры из папки /P/y16/term3/block3/adapters в рабочую директорию:
cp /P/y16/term3/block3/adapters/*.fa/nfs/srv/databases/ngs/vasidze
Файлы были объединены в один командой
cat *.fa > adapters.fasta
Адаптеры были удалены командой
java -jar /usr/share/java/trimmomatic.jar SE -phred33 A.fastq 1Atrim.fastq ILLUMINACLIP:adapters.fasta:2:7:7
Затем была использована программа trimmomatic для удаления части ридов с низким качеством и коротких ридов:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 1Atrim.fastq 1Am.fastq SLIDINGWINDOW:5:28 MINLEN:32
Рамка на пять нуклеотидов вырезает участок, если среднее значение качества на нуклеотид на этом участе меньше 28(SLIDINGWINDOW:5:28).

После этого риды короче 32 букв также вырезаются(MINLEN:32).

Объем файла до чистки 994 M, 3869869 ридов (91.38%)

После чистки 839 M, 3534630 ридов

Для создания 31-меров была использована команда
velveth kmers 31 -fastq -short 1Am.fastq

<После этого контиги были собраны командой
velvetg kmers
3) Выход программы: (были проанализированны файлы contig.fa и stats.txt)

Параметр Значение для k=31
N50 69
Максимальное покрытие контига 739.042542 (длина 77)
Минимальное покрытые контига 1(длина 65)
Самые длинные контиги: длина и покрытие и id 940, 5.329787 (id 10682)
708, 9.601695 (id 35694)
643, 3.864697 (id 13934)

Аннотация лучшей находки Число выравниваний с контигом Покрытие контига Процент идентичности
Самый длинный контиг Arabidopsis thaliana Cysteinyl-tRNA synthetase, class Ia family protein mRNA 1 100% 100%
Контиг с большим покрытием Arabidopsis thaliana hypothetical protein mRNA 1 100% 100%
Контиг с меньшим покрытием Arabidopsis thaliana soybean gene regulated by cold-2 (SRC2), mRNA 1 80% 100%

Самый длинный контиг NODE_16572


Контиг с максимальным покрытием покрытием NODE_80919


Контиг с минимальным покрытием покрытием NODE_248250

© Raldugina Vasilisa 2016