Сборка генома De Novo
Подготовка чтений
Команды для выполнения первого этапа
Команда | Функция | Результат |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 raw.fastq trimmed.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30 | Удаление адаптеров и прочих ассоциированных с Illumina последовательностей, удаление с концов нуклеотидов качеством меньше 20 и отбрасывание чтений короче 30 | Файл trimmed.fastq, выданный программой |
В ходе первоначальной обработки проекта SRR4240358 были удалены остатки адаптеров и концы с плохим качеством. Из исходных 10543839 ридов осталось
8580911, а отброшено было 1962928. Все адаптеры из указанной в задании директории были записаны в один файл adapters.fasta
Подготовка k-меров
Команды для выполнения второго этапа
Команда | Функция | Результат |
velveth velveth 29 -fastq -short trimmed.fastq | Подготовка k-меров | Несколько файлов в поддиректории velveth |
K-меры были подготовлены программой velveth. В специально обозначенной директории были созданы два необходимых для работы velvetg файл Sequences
и Roadmaps.
Сборка на основе предыдущего этапа
Команды для третьего этапа
Команда | Функция | Результат |
velvetg velveth | Построение графа на основании k-меров | Создается файл со статистикой и списоком контигов. |
K-меры были собранны программой velvetg. График имеет 715 вершин и N50=13511. Общая длина 661664.
Три самых длинных контига
ID | Длина | Покрытие |
9 | 38496 | 36.68 |
6 | 30747 | 38.86 |
7 | 27984 | 40.81 |
Среднее значение длин контигов равно 925, а медианное - 8. Это говорит обочень высоком разбросе. В файле для анализа доступен
график распределения контигов по длине.
Три контига с высоким покрытием
ID | Длина | Покрытие |
19 | 64 | 573.80 |
101 | 57 | 539.81 |
70 | 87 | 523.68 |
Три контига с низким покрытием
ID | Длина | Покрытие |
326 | 61 | 2.24 |
263 | 58 | 2.33 |
316 | 93 | 2.37 |
Выравнивание крупных контигов
Результаты выравнивания парным нуклеотидным blast
ID | Длина | Покрытие | Идентичность | E-value | Координаты | Количество гэпов | Количество однонуклеотидных различий |
9 | 38496 | 73% | 78% | 0.0 | 202390-236859 | 717 | 7752 |
6 | 30747 | 64% | 78% | 0.0 | 166245-144368 | 611 | 6153 | |
7 | 27984 | 73% | 78% | 0.0 | 26775-2004 | 566 | 5590 |
По итогам выравнивания все три контига однозначно мапировались на геном близкородственной бактерии. Выравнивания шестого и седьмого контига
с геномом были в противоположном направлении: следовательно, два генома различаются ориентацией достаточно крупных участков. Что интересно, все три контига
оказались на первой трети генома. Все выравнивания не сохранили целостность, но состояли из не более чем десяти фрагментов удовлетворительной величины.
Стоит так же заметить, что порядок выровненных фрагментов был одинаков для контигов и для геномов, т. е. не удалось детектировать разницу между
последовательностью генов в двух бактериях.
© Бусыгин Сергей, 2017