Практикум №14

1. Подготовка чтений программой trimmomatic

Командой

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz
был скачар архив с чтениями по заданному мне коду доступа - SRR4240359, (проект по секвенированию бактерии Buchnera aphidicolaБ str. Tuc7.

Далее было необходимо записать все адаптеры в один файл в рабочей директории:

cat /mnt/scratch/NGS/adapters/*.fa > adp.fa

Удаляем остатки адаптеров

TrimmomaticSE -phred33 SRR4240359.fastq.gz SRR4240359_trim1.fastq.gz ILLUMINACLIP:adp.fasta:2:7:7
мы получили с чтениями, очищенными от адаптеров, на вход было подано 13557938 чтений, сохранилось 13502066-(99.59%), а исключено было 55872-(0.41%) чтений (вероятно это адаптеры).

Теперь нам нужно удалить с правого конца чтения качеством ниже 20 и длиной меньше 32. Для этого выполним следующее триммирование:

TrimmomaticSE -phred33 SRR4240359_trim1.fastq.gz SRR4240359_trim2.fastq.gz TRAILING:20 MINLEN:32
На вход было подано 13502066, выжило 12184080-(90.24%), было удалено 1317986-(9.76%). Также размер файла SRR4240359_trim1.fastq.gz был былл 443M, а размер SRR4240359_trim2.fastq.gz стал 385M

Подготовка к-меров

Так как нам нужны к-меры длины 31, напишем следующую команду:

velveth xxx 31 -fastq -short filtered.fastq.gz
Мы получили папку с тремя файлами: Logs; Sequences; Roadmaps.

Сборка на основе к-меров

Командой

velvetg xxx
были созданы файлы сборки

N50 = 70607

С помощью команды

 grep '^>' contigs.fa | cut -f2,4,6 -d '_' | sort -k2 -t '_' -V -r | less
были получены три самых длинных контига:

Номер 11, длина 125674, покрытие 44.550949

Номер 1, длина 108447, покрытие 42.009186

Номер 14, длина 71403, покрытие 39.411552.

Также я нашел контиги с аномально большим покрытием:

Номер 98, покрытие 139.489;

Номер 80, покрытие 109.5

Номер 126, покрытие 91.982.

Megablast

С помощью Megablst были проанализированы контиги 11; 1; 14 с геномом из GenBank CP009253. Парметры: Expect Threshold 5; Word size 28.

Рис 1. Dot Plot контига 11

Контиг 11: 25 раз ложится на геном, координаты на хромосоме 11103-621055. Так как прямая разорвана и направлена вниз, это может говорить о том, что у контига обратное направление, точки начала прочтений не совпадают. Также имеются незначительные разрывы, которые могут сигнализировать об инсерциях или делециях.

Рис 2. Dot Plot контига 1

Контиг 1: 15 раз ложится на геном, координаты на хромосоме: 98408-200246. Направление последовательности контига такое же, как и у последовательности из GenBank. Есть достаточно большие разрывы, вероятно это негомологичные участки разной длины.

Рис 3. Dot Plot контига 14

Контиг 14: 14 раз ложится на геном. На хромосоме координаты: 207661-266073. Здесь также обратное направление и есть довольно мелкие разрывы, я больше склоняюсь к делециям и инсерциям.