Сборка генома de novo

1.Подготовка чтений


В первую очередь был создан файл, содержащий адаптеры:
cat *.fa>adapt.fasta

Адаптеры были удалены с помощью команды:
 java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240380.fastq trimm.fastq ILLUMINACLIP:adapt.fasta:2:7:7
До чисткиПосле чистки
Размер файла525M515M
Число чтений52173185119139
Далее были уалены чтения длины менее 30 и плохие буквы с конца чтений:
 java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 trimm.fastq trimm_cut.fastq TRAILING:20 MINLEN:30
До чистки После чистки
Размер файла515 M490 M
Число чтений51191394879707

2.Сборка генома


29-mers были срзданы командой:
 velveth out 29 -fastq -short trimm_cut.fastq
Контиги были собраны командой:
velvetg out/
K-mers 29K-mers 25
N50181285601
Длина669685708017
Число контигов8843676
Самые длинные контиги1)ID 9, lgth 57469, cov 35.820582
2)ID 3, lgth 43960, cov 36.274227
3)ID 8, lgth 33034, cov 35.383968
1)ID 11,lgth 23320, cov 51.519039
2)ID 69,lgth 19422, cov 53.803007
3)ID 41,lgth 15503, cov 47.728569
Встречаются контиги с аномальным покрытием, например контиг(ID 58) с покрытием 1233 длиной 1

3. Анализ


Контиг 9


Graph

Контиг 3


Graph

Контиг 8


Graph
Контигmismatchesgapschromosomequery coverageidentity
94026545528794-55021986%81%
319922522063-1110368%78%
81697208467471-47466761%77%
Стоит отметить, что контиг 3 ложится на геном в двух разных местах. Так же можно отметить,
что все контиги ложатся на геном с разрывами

SPA_des


Программа с нужными параметрами была запущена командой:
spades.py -s trimm_cut.fastq -k 29 -o spa

Для анализа выдачи была использована программа quast:
Graph
Работа программы SPA_des заняла значительно больше времени, чем velveth и velvetg
SPA_des нашел меньшее число контигов

© Simon Konnov 2017