NGS: de-novo сборка генома

Сборка генома и его анализ

Архив с чтениями был получен с помощи команды wget.

Далее был создан файл с адаптерами для их дальнейшего удаления.

Потом из чтений сначала удалялись адаптеры, а потом чтения с качеством ниже 20 и длиной меньше 32.

Изначально было 13 557 938 чтений. В результате первой программы осталось 13 502 066 последовательностей (99.59%). Потом фильтрация уменьшила число до 12 184 080 чтений (89.87% от изначального числа). Размер файла сократился сначала с 445 MB до 443 MB, а потом после фильтрации до 385 MB.

Поскольку чтения теперь не короче 30 нуклеотидов, минимальной длиной k-мера для построения графа выберем 31. Для сборки будем использовать пакет программ velvet, а конкретно для этого программу velveth (-short указывает на короткие непарные чтения, а velvet — название папки).

Теперь воспользуемся программой velvetg для сборки генома.

Из Log файла внутри папки velvet можно узнать, что N50 = 70 607. В файле stats.txt найдем три самых длинных контига и их покрытие (Табл. 1).

ID Длина Покрытие
11 125 674 44.55
1 108 447 42.01
14 71 403 39.41
Таблица 1. Характеристика трех самых длинных контигов из сборки.

Все контиги с аномально большими или аномально малыми покрытиями имееют длину меньше k (в нашем случае 31). Такие контиги не попадут в файл contigs.fa, потому что в него попадают только контиги длиной больше или равной максимальной длине k-меров. При помощи grep удалось узнать, что таких 285.


Анализ контигов с помощью megablast

Три самых больших контига были картированы на хромосому Buchnera aphidicola (всегда по оси Y, GenBank/EMBL AC — CP009253): контиг 1 (рис. 1), контиг 11 (рис. 2) и контиг 14 (рис. 3). Под каждым дотплотом находится таблица со сводной статистикой по выравниванию (коорднаты выровненного участка, количество совпавших на нем нуклеотидов и количество гэпов).