Dzha_denovo

Сборка генома de novo.

Сначала с помощью кода доступа SRR4240384 был скачан файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq. Эта бактерия относится к протеобактериям и является эндосимбионтом тлей.

Подготовка чтений программой trimmomatic.

Файл был обработан программой Trimmomatic. Были удалены адаптеры с помощью параметра обработки ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta – файл со всеми адаптерами. Также были обрезаны концы ридов с неудовлетворительным качеством: TRAILING:20, и отсечены чтения малой (< 30) длины: MINLEN:30.

Полная команда:

  java -jar  /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359.fastq SRR4240359_trimmed.fastq TRAILING:20 MINLEN:30 ILLUMINACLIP:adapters.fasta:2:7:7  
	

Выходные данные работы программы:

Input Reads: 9825592 Surviving: 7166742 (72,94%) Dropped: 2658850 (27,06%)
	

То есть, чистка привела к потере примерно 2,7 млн ридов, что составляет одну треть от их изначального количества.

Далее была запущена программа velveth для подготовки k-меров длины k=29 (максимально возможной при нашей длине чтений). Данная программа принимает на вход последовательности и создаёт хэш-таблицу, на выходе получаем два файла (Sequences и Roadmaps), необходимые для работы с программой velvetg. Для запуска использовалась команда:

velveth k_dir 29 -short -fastq trimm.fastq

Cборка на основе k-меров была произведена программой velvetg, которая строит граф де Брёйна — ориентированный n-мерный граф из m символов, отражающий пересечения между последовательностями символов. Он имеет m^n вершин, состоящих из всех возможных последовательностей длины n из данных символов. Один и тот же символ может встречаться в последовательности несколько раз.

Для запуска использовалась команда:

velvetg k_dir

В итоге были получены файлы с графами: PreGraph, LastGraph, Graph, а также contigs.fa, содержащий последовательности контигов и stats.txt, содержащий статистику.

Построоенный граф имеет 5128 вершины, N50 = 82.Стоит отметить, что количество вершин не обязательно соответствует количеству контигов, так как "нормальными" являются только контиги длины не менее 29. Именно они прописываются в файле contigs.fa.

Для дальнейшего анализа контигов был взят файл contigs.fa. Далее, чтобы извлечь строки с описаниями контигов была использована команда:

grep '>' contigs.fa > contigs.txt

На основе извлеченных данных была построена таблица [xlsx], все параметры приведены в k-мерах(для расчёта длины в нуклеотидах нужно просто добавить k–1).

Таблица 1. Описание трех самых длинных контигов
node Длина Покрытие Файл с последовательностью
312 434 6.352535 con312.fa
8 594 9.500000 con8.fa
119 607 7.377265 con119.fa

Сравнение трех контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253) в megablast не дало никаких результатов.

Аналогичный анализ для контигов с аномальными покрытиями проведён не был, поскольку, как было сказано, таких у меня просто не получилось.