Практикум 15

Введение

В этом практикуме необходимо собрать геном Buchnera aphidicola с помощью чтений, хранящихся в SRA (SRR4240356).

Сборка

Для удаления остатков адаптеров воспользовался командой: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356.fastq.gz SRR4240356_trimmed.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7. После выполнения осталось 97.96% от изначального кол-ва чтений.

Для удаления нуклеотидов с неудовлетворительным качеством с конца и отбора посл-тей чтений с длиной >= 32 bp использовал: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356.fastq.gz SRR4240356_trimmed.fastq.gz MINLEN:32 TRAILING:20 (файл ,получившийся на первом этапе работы trimmomatic, был переименован в 'SRR4240356.fastq.gz', а изначальный файл соответственно был удален). В результате этого шага удалено 82990 чтений (с учетом первого этапа -235381). Размер файла с чтениями до и после очистки соответственно: 166.19 Mb и 159 Mb.

Для построения графа Де Брёйна использовал: velveth velveth/ 31 -fastq -short SRR4240356.fastq.gz, для сборки генома, основываясь на нем, запустил velvetg ./velveth/.

Анализ

Судя по всему, сборка получилась довольно неплохой: N50 = 65584 bp(длина наименьшего среди контигов, составляющих >=50% суммарной длины всех контигов). К слову, L50 = 4 (кол-во таких контигов).

1
Рис.1 Быстрая сходимость кумулятивной суммы контигов к сумме длин всех контигов.

Длины и покрытия 3-х самых больших контигов соответственно: 111992, 107518, 80969 и 38, 34, 37. Забавно, но есть заметное число контигов с аномальным покрытием

1
Рис.2 Распределение покрытий контигов, видно, что есть несколько посл-тей с покрытиями, значительно превышающими среднее значение.

Три самых покрытых контига обладают длинами:282, 950 и 934, их покрытия: 458, 447, 444. С помощью blastn выяснил, что эти контиги, скорее всего, входят в состав плазмиды этой бактерии (что кажется логичным: возможно, в клетке не одна плазмида, или кольцевая хромосома обладает менее открытой структурой).

Все 3 участка выравнялись с хромосомой, примерные 'координаты' выравнивания: 450'000 - 570'000; 220'000 - 320'000; 200'000 - 120'000 (от самого большого контига к 3-ему по длине). Покрытия контигов выравниваниями(query cover): 75%, 74% и 65%. Число локальных выравниваний: 15, 18 и 11, на dot plot 'пробелы между ними' выглядят как сильно вариативные участки.

Число гэпов в каждом локальном выравнивании для первого контига: 545/21721(2%), 133/5658(2%), 208/7388(2%), 351/8617(4%), 187/6234(2%), 207/5685(3%), 162/5015(3%), 308/6238(4%), 255/5974(4%), 99/3782(2%), 154/4324(3%), 55/2370(2%), 13/1384(0%), 20/686(2%), 5/120(4%)
для второго: 363/9661(3%), 390/10884(3%), 186/7429(2%), 421/8396(5%), 19/2861(0%), 120/4367(2%), 163/4178(3%), 130/4581(2%), 97/3166(3%), 111/3622(3%), 98/3422(2%), 94/3246(2%), 89/3351(2%), 174/4303(4%), 192/4399(4%), 14/1535(0%), 27/1349(2%), 46/1132(4%)
для третьего: 544/13008(4%), 266/8169(3%), 243/7536(3%), 99/4801(2%), 108/4912(2%), 159/6517(2%), 112/3692(3%), 13/1368(0%), 11/1199(0%), 1/967(0%), 4/1209(0%)