Командой
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gzбыл скачар архив с чтениями по заданному мне коду доступа - SRR4240359, (проект по секвенированию бактерии Buchnera aphidicolaБ str. Tuc7.
Далее было необходимо записать все адаптеры в один файл в рабочей директории:
cat /mnt/scratch/NGS/adapters/*.fa > adp.fa
Удаляем остатки адаптеров
TrimmomaticSE -phred33 SRR4240359.fastq.gz SRR4240359_trim1.fastq.gz ILLUMINACLIP:adp.fasta:2:7:7мы получили с чтениями, очищенными от адаптеров, на вход было подано 13557938 чтений, сохранилось 13502066-(99.59%), а исключено было 55872-(0.41%) чтений (вероятно это адаптеры).
Теперь нам нужно удалить с правого конца чтения качеством ниже 20 и длиной меньше 32. Для этого выполним следующее триммирование:
TrimmomaticSE -phred33 SRR4240359_trim1.fastq.gz SRR4240359_trim2.fastq.gz TRAILING:20 MINLEN:32На вход было подано 13502066, выжило 12184080-(90.24%), было удалено 1317986-(9.76%). Также размер файла SRR4240359_trim1.fastq.gz был былл 443M, а размер SRR4240359_trim2.fastq.gz стал 385M
Так как нам нужны к-меры длины 31, напишем следующую команду:
velveth xxx 31 -fastq -short filtered.fastq.gzМы получили папку с тремя файлами: Logs; Sequences; Roadmaps.
Командой
velvetg xxxбыли созданы файлы сборки
N50 = 70607
С помощью команды
grep '^>' contigs.fa | cut -f2,4,6 -d '_' | sort -k2 -t '_' -V -r | lessбыли получены три самых длинных контига:
Номер 11, длина 125674, покрытие 44.550949
Номер 1, длина 108447, покрытие 42.009186
Номер 14, длина 71403, покрытие 39.411552.
Также я нашел контиги с аномально большим покрытием:
Номер 98, покрытие 139.489;
Номер 80, покрытие 109.5
Номер 126, покрытие 91.982.
С помощью Megablst были проанализированы контиги 11; 1; 14 с геномом из GenBank CP009253. Парметры: Expect Threshold 5; Word size 28.
Контиг 11: 25 раз ложится на геном, координаты на хромосоме 11103-621055. Так как прямая разорвана и направлена вниз, это может говорить о том, что у контига обратное направление, точки начала прочтений не совпадают. Также имеются незначительные разрывы, которые могут сигнализировать об инсерциях или делециях.
Контиг 1: 15 раз ложится на геном, координаты на хромосоме: 98408-200246. Направление последовательности контига такое же, как и у последовательности из GenBank. Есть достаточно большие разрывы, вероятно это негомологичные участки разной длины.
Контиг 14: 14 раз ложится на геном. На хромосоме координаты: 207661-266073. Здесь также обратное направление и есть довольно мелкие разрывы, я больше склоняюсь к делециям и инсерциям.