Сборка генома De Novo

Подготовка чтений

Команды для выполнения первого этапа
КомандаФункцияРезультат
java -jar /usr/share/java/trimmomatic.jar SE -phred33 raw.fastq trimmed.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30 Удаление адаптеров и прочих ассоциированных с Illumina последовательностей, удаление с концов нуклеотидов качеством меньше 20 и отбрасывание чтений короче 30 Файл trimmed.fastq, выданный программой

В ходе первоначальной обработки проекта SRR4240358 были удалены остатки адаптеров и концы с плохим качеством. Из исходных 10543839 ридов осталось 8580911, а отброшено было 1962928. Все адаптеры из указанной в задании директории были записаны в один файл adapters.fasta

Подготовка k-меров

Команды для выполнения второго этапа
КомандаФункцияРезультат
velveth velveth 29 -fastq -short trimmed.fastq Подготовка k-меров Несколько файлов в поддиректории velveth

K-меры были подготовлены программой velveth. В специально обозначенной директории были созданы два необходимых для работы velvetg файл Sequences и Roadmaps.

Сборка на основе предыдущего этапа

Команды для третьего этапа
КомандаФункцияРезультат
velvetg velveth Построение графа на основании k-меров Создается файл со статистикой и списоком контигов.

K-меры были собранны программой velvetg. График имеет 715 вершин и N50=13511. Общая длина 661664.

Три самых длинных контига
IDДлинаПокрытие
9 38496 36.68
6 30747 38.86
7 27984 40.81

Среднее значение длин контигов равно 925, а медианное - 8. Это говорит обочень высоком разбросе. В файле для анализа доступен график распределения контигов по длине.

Три контига с высоким покрытием
IDДлинаПокрытие
19 64 573.80
101 57 539.81
70 87 523.68

Три контига с низким покрытием
IDДлинаПокрытие
326 61 2.24
263 58 2.33
316 93 2.37

Выравнивание крупных контигов

Результаты выравнивания парным нуклеотидным blast
IDДлинаПокрытиеИдентичностьE-valueКоординатыКоличество гэповКоличество однонуклеотидных различий
9 38496 73%78%0.0202390-2368597177752
6 30747 64%78%0.0166245-1443686116153
7 27984 73%78%0.026775-20045665590

По итогам выравнивания все три контига однозначно мапировались на геном близкородственной бактерии. Выравнивания шестого и седьмого контига с геномом были в противоположном направлении: следовательно, два генома различаются ориентацией достаточно крупных участков. Что интересно, все три контига оказались на первой трети генома. Все выравнивания не сохранили целостность, но состояли из не более чем десяти фрагментов удовлетворительной величины. Стоит так же заметить, что порядок выровненных фрагментов был одинаков для контигов и для геномов, т. е. не удалось детектировать разницу между последовательностью генов в двух бактериях.


© Бусыгин Сергей, 2017