Практикум 15. Сборка de novo

В таблице напротив своей фамилии я нашла код доступа проекта по секвенированию бактерии Buchnera aphidicola str. Tuc7, а именно код SRR4240356. Здесь представлена ссылка на короткие (длины 39) чтения, полученные по технологии Illumina для моего кода.

В директории /mnt/scratch/NGS/ я создала рабочую поддиректорию для этого практикума, а затем перешла в неё. Затем скачала архив с чтениями в рабочую директорию при помощи следующей команды:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz

Подготовка чтений программой trimmomatic

Затем я пометила все адаптеры в один файл при помощи команды:

cat /mnt/scratch/NGS/adapters/* > adapt.fa

После этого я прибегла к обрезке адаптеров с одноконцевых ридов при помощи команды:

TrimmomaticSE -phred33 SRR4240356.fastq.gz SRR4240356_trim1.fastq.gz ILLUMINACLIP:adapt.fa:2:7:7 -trimlog trim1

Результаты были получены следующие: 7358438 (97.96%) чтений осталось, а удалилось: 153091 (2.04%).

Триммирование чтений

Для удаления с правых концов чтений нуклеотидов с качеством ниже 20 и удаления чтений, длина которых меньше 32 нуклеотидов использовалась программа:

TrimmomaticSE -phred33 SRR4240356_trim1.fastq.gz SRR4240356_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trim2

Результаты были получены следующие: 7053346 (95.85%) остались, а были удалены: 305092 (4.15%).

Для того, чтобы узнать изменения в размерах файлов использовалась программа du -h , то есть:

du -h SRR4240356.fastq.gz - для изначального файла (размер 167 М)
du -h SRR4240356_trim1.fastq.gz - после первого использования программы Trimmomatic (размер 164 М)
du -h SRR4240356_trim2.fastq.gz - после второго использования (размер 155 М)

Подготовка K-меров

Подготовка k-меров длины k=31 осуществлялась при помощи команды:

velveth velveth 31 -short -fastq.gz SRR4240356_trim2.fastq.gz

Комментарии: 1)входные данные: -fastq.gz - указывает, что файл на вход в формате .fastq.gz, файл с триммированными чтениями; 2)опции: 31 - длина k-меров (hash_length), -short - короткие и непарные чтения

Сборка на основе k-меров

Далее была применена программа для сборки на основе k-меров:

velvetg velveth

Комментарии: 1)входные данные: файлы, полученные velveth; 2)выходные данные: 8 файлов (contigs.fa, Graph, LastGraph, Log, PreGraph, Roadmaps, Sequences, stats.txt)

В файле Log находим следующую информацию: N50 = 65554, Max = 111962.

Чтобы найти необходимую для нас информацию, поработаем с файлом stats.txt при помощи следующей команды:

sort -r -n -k 2 stats.txt | less

Далее найдём 3 самых длинных контига. Для этого прибегнем к использованию следующей команды:

cut -f2 stats.txt | sort -h | tail -3

Были получены следующие результаты: 80939, 107488, 111962.

Теперь проверим, есть ли аномальные покрытия:

cut -f6 stats.txt | sort -h

Аномально низкие от 1 до 5 встречаются в очень большом количестве. Есть и очень большие: 458.429078, 1134.000000, 266951.000000.

Ниже я представлю полученную информацию в виде таблицы с некоторыми характеристиками сборки.

**Характеристики выбранной сборки:**
ID	length	coverage
6	107488	34.174029
8	111962	38.660197
10	80939	37.524173

Анализ

Я достала 3 файла с самыми длинными контигами и положила их в верхнюю папку при помощи следующих команд:

seqretsplit -filter contigs.fa dir/name.format
cp node_10_length_80939_cov_37.524174.fasta ../
cp node_6_length_107488_cov_34.174030.fasta ../
cp node_8_length_111962_cov_38.660198.fasta ../

Далее я зашла на страницу BLASTN в NCBI и работала там, с отметкой чекбокса "Align two or more sequences". В верхнее окошко я поместила AC генома (CP009253), в нижнее – последовательность контига и нажала "BLAST" "megablast" (данную процедуру я проделала 3 раза, соотвественно). Ниже приведены полученные изображения и комментарии к ним.

**Рисунок 1.** Dotplot 6 контига (есть делеции; контиг ложится на хромосому ровно, в том же направении)

**Рисунок 2.** Dotplot 8 контига (есть делеции; контиг ложится на хромосому ровно, в том же направении)

**Рисунок 3.** Dotplot 10 контига (заметим крупные делеции; контиг ложится на хромосому в обратном направлении)