Практикум 15. Сборка de novo

В таблице напротив своей фамилии я нашла код доступа проекта по секвенированию бактерии Buchnera aphidicola str. Tuc7, а именно код SRR4240356. Здесь представлена ссылка на короткие (длины 39) чтения, полученные по технологии Illumina для моего кода.

В директории /mnt/scratch/NGS/ я создала рабочую поддиректорию для этого практикума, а затем перешла в неё. Затем скачала архив с чтениями в рабочую директорию при помощи следующей команды:

Подготовка чтений программой trimmomatic

Затем я пометила все адаптеры в один файл при помощи команды:

После этого я прибегла к обрезке адаптеров с одноконцевых ридов при помощи команды:

Результаты были получены следующие: 7358438 (97.96%) чтений осталось, а удалилось: 153091 (2.04%).

Триммирование чтений

Для удаления с правых концов чтений нуклеотидов с качеством ниже 20 и удаления чтений, длина которых меньше 32 нуклеотидов использовалась программа:

Результаты были получены следующие: 7053346 (95.85%) остались, а были удалены: 305092 (4.15%).

Для того, чтобы узнать изменения в размерах файлов использовалась программа du -h , то есть:

Подготовка K-меров

Подготовка k-меров длины k=31 осуществлялась при помощи команды:

Комментарии: 1)входные данные: -fastq.gz - указывает, что файл на вход в формате .fastq.gz, файл с триммированными чтениями; 2)опции: 31 - длина k-меров (hash_length), -short - короткие и непарные чтения

Сборка на основе k-меров

Далее была применена программа для сборки на основе k-меров:

Комментарии: 1)входные данные: файлы, полученные velveth; 2)выходные данные: 8 файлов (contigs.fa, Graph, LastGraph, Log, PreGraph, Roadmaps, Sequences, stats.txt)

В файле Log находим следующую информацию: N50 = 65554, Max = 111962.

Чтобы найти необходимую для нас информацию, поработаем с файлом stats.txt при помощи следующей команды:

Далее найдём 3 самых длинных контига. Для этого прибегнем к использованию следующей команды:

Были получены следующие результаты: 80939, 107488, 111962.

Теперь проверим, есть ли аномальные покрытия:

Аномально низкие от 1 до 5 встречаются в очень большом количестве. Есть и очень большие: 458.429078, 1134.000000, 266951.000000.

Ниже я представлю полученную информацию в виде таблицы с некоторыми характеристиками сборки.

Характеристики выбранной сборки:
IDlengthcoverage
610748834.174029
811196238.660197
108093937.524173

Анализ

Я достала 3 файла с самыми длинными контигами и положила их в верхнюю папку при помощи следующих команд:

Далее я зашла на страницу BLASTN в NCBI и работала там, с отметкой чекбокса "Align two or more sequences". В верхнее окошко я поместила AC генома (CP009253), в нижнее – последовательность контига и нажала "BLAST" "megablast" (данную процедуру я проделала 3 раза, соотвественно). Ниже приведены полученные изображения и комментарии к ним.

Рисунок 1. Dotplot 6 контига (есть делеции; контиг ложится на хромосому ровно, в том же направении)
Рисунок 2. Dotplot 8 контига (есть делеции; контиг ложится на хромосому ровно, в том же направении)
Рисунок 3. Dotplot 10 контига (заметим крупные делеции; контиг ложится на хромосому в обратном направлении)