Сборка de novo

AC моего проекта - SRR4240361. Архив с чтениями был скачан с помощью команды:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz

Запукск программ

С помощью следующей команды файлы с последовательностями адаптеров были собраны в один:
cat /mnt/scratch/NGS/adapters/* >> adapters.fa
Далее были удалены остатки адаптеров с помощью stepа программы trimmomatic ILLUMINACLIP:
java -jar /usr/share/java/trimmomatic.jar SE SRR4240361.fastq.gz trimmed.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fa:2:7:7
34532 (0.47%) из 7272621 чтений оказались остатками адаптеров

Далее c помощью stepа TRAILING команды trimmomatic с правых концов чтений были удалены нуклеотиды с качеством ниже 20, а также были удалены чтения длиной менее 32 нуклеотидов:
java -jar /usr/share/java/trimmomatic.jar SE trimmed.fastq.gz trimmed2.fastq.gz -trimlog trim2.log TRAILING:20 MINLEN:32
403754 (5.58%) из 7238089 чтения было удалено.
Размер исходного файла: 201,0MB, Размер получившегося: 185,8 МВ.

Далее были запущены команды velveth и velvetg:
velveth velveth 31 -fastq.gz trimmed2.fastq.gz -short
velvetg velveth &> velvet.log

Анализ результатов

После анализа файла stats.txt, полученного с помощью velvetg, была получена о 3 самых длинных контигах (Табл. 1.).

Из файла contigs.fa была получена информация о контигах, вошедших в сборку, было выяснено, что медианное покрытие контига - 11,98. Контигом с анамально малым покрытием является 391 (длинна - 63, покрытие - 2,24), а контигами с анамально большим покрытием - 185 (длинна - 48, покрытие - 62,54), 95 (длинна - 31, покрытие - 64,903229), 91 (длинна - 33, покрытие - 76,63636), 78 (длинна - 47, покрытие - 90,744682).

В файле velvet.log было указано значение n50 равное 25683.

Табл. 1. Краткая информация о самых больших контигах.
IDдлинапокрытиеfasta
64923826.66contig 6
24555526.45contig 2
344386623.51contig 34

C помощью seqretsplit из файл contigs.fa был разбит на контиги, и самые длинные контиги были выровненны на хромосому Buchnera aphidicola (GenBank/EMBL AC — CP009253) с помощью megaBLAST(параметры по умолчанию).

Контиг 6

Отдельные нуклеотиды

Рис. 1.Выравнивание контига с ID 6 с референсным геномом..
Табл. 2. Краткая информация о выравниваниях.
Координаты участка хромосомыИдентичностьГэпы
440755-440944 169/190(89%) 8/190(4%)
441135-442817 1339/1694(79%) 9/190(4%)
442877-445895 2451/3054(80%) 10/190(4%)
449411-454069 3574/4735(75%) 11/190(4%)
462496-467424 3865/5019(77%) 12/190(4%)
467412-474667 5690/7388(77%) 13/190(4%)
474844-480660 4432/5977(74%) 14/190(4%)
480874-481548 564/687(82%) 15/190(4%)
481997-485676 2850/3724(77%) 16/190(4%)

Контиг 6 соответствует участку хромосомы с координатами 441135-485676, высокогомологичные участки разделены менее гомологичными участками

Контиг 2

Отдельные нуклеотиды

Рис. 2.Выравнивание контига с ID 2 с референсным геномом..
Табл. 3. Краткая информация о выравниваниях
Координаты участка хромосомыИдентичностьГэпы
127825-140555 9755/13014(75%) 18/190(4%)
144368-151796 5861/7538(78%) 19/190(4%)
153752-161738 6359/8172(78%) 20/190(4%)
161898-166752 3909/4912(80%) 21/190(4%)
166750-173180 4964/6514(76%) 22/190(4%)

Контиг 2 соответствует участку хромосомы с координатами 144368-173180, высокогомологичные участки разделены менее гомологичными участками. Отрицательный наклон прямой на карте локального сходства объясняется противопложной ориентацией(+/-) последовательностей хромосомы и контига

Контиг 34

Отдельные нуклеотиды

Рис. 3.Выравнивание контига с ID 34 с референсным геномом..
Табл. 4. Краткая информация о выравниваниях
Координаты участка хромосомыИдентичностьГэпы
253223-257546 3251/4427(73%) 24/190(4%)
260224-263784 2780/3609(77%) 25/190(4%)
266073-275551 7608/9657(79%) 26/190(4%)
275566-283706 6371/8396(76%) 27/190(4%)
283963-285070 863/1132(76%) 28/190(4%)
285200-286535 1025/1349(76%) 29/190(4%)
288181-291560 2650/3419(78%) 30/190(4%)

Контиг 34 соответствует участку хромосомы с координатами 260224-291560, высокогомологичные участки разделены менее гомологичными участками