AC моего проекта - SRR4240361. Архив с чтениями был скачан с помощью команды:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz
С помощью следующей команды файлы с последовательностями адаптеров были собраны в один:
cat /mnt/scratch/NGS/adapters/* >> adapters.fa
Далее были удалены остатки адаптеров с помощью stepа программы trimmomatic ILLUMINACLIP:
java -jar /usr/share/java/trimmomatic.jar SE SRR4240361.fastq.gz trimmed.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fa:2:7:7
34532 (0.47%) из 7272621 чтений оказались остатками адаптеров
Далее c помощью stepа TRAILING команды trimmomatic с правых концов чтений были удалены нуклеотиды с качеством ниже 20, а также были удалены чтения длиной менее 32 нуклеотидов:
java -jar /usr/share/java/trimmomatic.jar SE trimmed.fastq.gz trimmed2.fastq.gz -trimlog trim2.log TRAILING:20 MINLEN:32
403754 (5.58%) из 7238089 чтения было удалено.
Размер исходного файла: 201,0MB, Размер получившегося: 185,8 МВ.
Далее были запущены команды velveth и velvetg:
velveth velveth 31 -fastq.gz trimmed2.fastq.gz -short
velvetg velveth &> velvet.log
После анализа файла stats.txt, полученного с помощью velvetg, была получена о 3 самых длинных контигах (Табл. 1.).
Из файла contigs.fa была получена информация о контигах, вошедших в сборку, было выяснено, что медианное покрытие контига - 11,98. Контигом с анамально малым покрытием является 391 (длинна - 63, покрытие - 2,24), а контигами с анамально большим покрытием - 185 (длинна - 48, покрытие - 62,54), 95 (длинна - 31, покрытие - 64,903229), 91 (длинна - 33, покрытие - 76,63636), 78 (длинна - 47, покрытие - 90,744682).
В файле velvet.log было указано значение n50 равное 25683.
C помощью seqretsplit из файл contigs.fa был разбит на контиги, и самые длинные контиги были выровненны на хромосому Buchnera aphidicola (GenBank/EMBL AC — CP009253) с помощью megaBLAST(параметры по умолчанию).
Координаты участка хромосомы | Идентичность | Гэпы |
---|---|---|
440755-440944 | 169/190(89%) | 8/190(4%) |
441135-442817 | 1339/1694(79%) | 9/190(4%) |
442877-445895 | 2451/3054(80%) | 10/190(4%) |
449411-454069 | 3574/4735(75%) | 11/190(4%) |
462496-467424 | 3865/5019(77%) | 12/190(4%) |
467412-474667 | 5690/7388(77%) | 13/190(4%) |
474844-480660 | 4432/5977(74%) | 14/190(4%) |
480874-481548 | 564/687(82%) | 15/190(4%) |
481997-485676 | 2850/3724(77%) | 16/190(4%) |
Контиг 6 соответствует участку хромосомы с координатами 441135-485676, высокогомологичные участки разделены менее гомологичными участками
Контиг 2 соответствует участку хромосомы с координатами 144368-173180, высокогомологичные участки разделены менее гомологичными участками. Отрицательный наклон прямой на карте локального сходства объясняется противопложной ориентацией(+/-) последовательностей хромосомы и контига
Координаты участка хромосомы | Идентичность | Гэпы |
---|---|---|
253223-257546 | 3251/4427(73%) | 24/190(4%) |
260224-263784 | 2780/3609(77%) | 25/190(4%) |
266073-275551 | 7608/9657(79%) | 26/190(4%) |
275566-283706 | 6371/8396(76%) | 27/190(4%) |
283963-285070 | 863/1132(76%) | 28/190(4%) |
285200-286535 | 1025/1349(76%) | 29/190(4%) |
288181-291560 | 2650/3419(78%) | 30/190(4%) |
Контиг 34 соответствует участку хромосомы с координатами 260224-291560, высокогомологичные участки разделены менее гомологичными участками