Практикум 14 (сборка de novo)

Код доступа проекта по секвенированию бактерии Buchnera aphidicola, выданный мне: SRR4240358

Подготовка чтений программой trimmomatic.

Для начала все адаптеры, лежащие в диреткории /P/y16/term3/block3/adapters, я перенесла в свою рабочую директорию и собрала в один файл adapters.fasta. Затем чтобы удалить возможные остатки адаптеров я воспользовалась командой из 11 пракума:

В результате работы прогрммы оказалось, что от 10543839 чтений осталось 98, 34%, а адаптеры составили 1,66%:
Input Reads: 10543839 Surviving: 10368884 (98,34%) Dropped: 174955 (1,66%) C помощью команды были удалены буквы с концов:

Команда убрала буквы, с качеством ниже 20 (аналогично практикуму 11), но теперь удалялись риды, которые после такого удаления букв стали короче 32. Вывод программы:
Input Reads: 10368884 Surviving: 8016437 (77,31%) Dropped: 2352447 (22,69%)
В данном случае сокращение ридов увеличилось до 22,69%. От 10368884 ридов осталось всего 8016437.

Таблица 1. Размеры файлов до и после очищения.
Команда Файл Размер
read.fastq Начальный файл с ридами 1179775440
stat -c %s SRR.fastq Файл с ридами после удаления адаптеров 1159349882
stat -c %s SRR2.fastq Файл с ридами после удаления букв 865076716

Запуск программы velveth.

Программа velveth использовалась с целью узнать k-меров с длинной 31:

Длина наших к-меров должна быть меньше длины ридов, т.к. они должны быть подстроками ридов(32) ипри этом должна быть нечетной. Соответственно мы взяли максимально возможную. В результате раюоты программы созданы три файла.

velvetg

Команда:

для сборки на основе к-меров. Чтобы узнать N50 я воспользовалась файлом Log, который был дописан в ходе работы данной программы, т.к. раньше там была информация о запуске velveth. В конец добавилась информация о запуске velvetg. Информацию о длине контигов можно узнать из файла stats.txt (содержащего статистику о контигах) N50 = 8600 (то есть не менее, чем половина генома покрыта контигами длины не меньше, чем это число), самый длинный контиг-19821, суммарная длина контигов 655707. Самый длинный контиг 19821 имеет среднее покрытие 29.5, а следующие по длине контиги имеют длины 18714 (покрытие 29.9) и 16436 (покрытие 30.8). Контиги с аномально высоким/ низким покрытием: (281.5) имеет длину 622, (2.6) имеет длину 261.

Анализ

Таблица 2. megablast.
ID Dotted Длина Max Score Total Score Query cover Per ident Координаты Гэпы
57 Фотография 1 19821 3949 9397 86% 75.62% 496111-514772 351/8617(4%)
34 Фотография 1 18714 2278 9481 74 85.41 8599-26764 30/2220(1%)
41 Фотография 1 16436 3703 6423 71% 76.75% 467412-474242 204/6961(2%)