Архив с чтениями был скачан с помощью команды wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240360/SRR4240360.fastq.gz
Сначала в рабочую директорию были скопированы адаптеры с помощью следующей команды:
cp /mnt/scratch/NGS/adapters/* .
Далее скопированные файлы NexteraPE-PE.fa TruSeq2-PE.fa TruSeq2-SE.fa TruSeq3-PE-2.fa TruSeq3-PE.fa TruSeq3-SE.fa были собраны в один файл:
cat *.fa >> all_adapters.fa
Затем возможные остатки адаптеров были удалены посредством команды:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240360.fastq.gz reads_without_adapters.fastq.gz ILLUMINACLIP:all_adapters.fa:2:7:7 2> removing_adapters.txt
На выходе были получены чтения, составляющие 99.49% от исходных, соответственно 0.51% последовательностей было удалено.
Далее с правых концов чтений были удалены нуклеотиды с качеством ниже 20 и были оставлены только такие чтения, длина которых не меньше 32 нуклеотидов.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 reads_without_adapters.fastq.gz reads_complete.fastq.gz TRAILING:20 MINLEN:32 2> results.txt
Было удалено 3.62% чтений.
Вес исходного файла: 202843525 байт
Вес файла после удаления адаптеров: 201803840 байт
Вес файла после чистки: 192395357 байт
Посредством представленной ниже команды была создана директория kmer с файлами Log, Roadmaps, Sequences.
velveth kmer 31 -fastq -short reads_complete.fastq.gz
После запуска программы velvetg и посредством сортировки sort -nk 2 stats.txt было выяснено значение N50 = 43070 и составлена таблица:
ID | длина | покрытие |
1 | 113474 | 33.525460 |
5 | 83603 | 33.646065 |
4 | 64155 | 35.847323 |
Файлы с последовательностями контигов были получены командой вида seqret contigs.fa:NODE_1_* seq1.fasta
Далее с помощью программы megablast каждый из трёх самых длинных контигов был сопоставлен с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
координаты участка хромосомы, соответствующего контигу | процент идентичности | число гэпов | как именно он "ложится" на банковский геном? |
450К-550К | 17687/21720 (81%) | 543/21720 (2%) | контиг лег только на небольшую часть хромосомы (450К-550К), видны невыровненные участки на 460К и 480К соотвественно |
0-50К и 628К-650К | 7222/9216(78%) | 242/9216(2%) | часть выравнивания показана в левой части графика, часть - в правой, что объясняется кольцевой структурой хромосомы, видны достаточно большие разрывы на уровнях 20К, 30К, 630К |
100К-180К | 9755/13014(75%) | 556/13014(4%) | виден достаточно большой разрыв 110К-130К и маленькие далее |