Dzha_denovo
Сначала с помощью кода доступа SRR4240384 был скачан файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq. Эта бактерия относится к протеобактериям и является эндосимбионтом тлей.
Файл был обработан программой Trimmomatic. Были удалены адаптеры с помощью параметра обработки ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta – файл со всеми адаптерами. Также были обрезаны концы ридов с неудовлетворительным качеством: TRAILING:20, и отсечены чтения малой (< 30) длины: MINLEN:30.
Полная команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359.fastq SRR4240359_trimmed.fastq TRAILING:20 MINLEN:30 ILLUMINACLIP:adapters.fasta:2:7:7
Выходные данные работы программы:
Input Reads: 9825592 Surviving: 7166742 (72,94%) Dropped: 2658850 (27,06%)
То есть, чистка привела к потере примерно 2,7 млн ридов, что составляет одну треть от их изначального количества.
Далее была запущена программа velveth для подготовки k-меров длины k=29 (максимально возможной при нашей длине чтений). Данная программа принимает на вход последовательности и создаёт хэш-таблицу, на выходе получаем два файла (Sequences и Roadmaps), необходимые для работы с программой velvetg. Для запуска использовалась команда:
velveth k_dir 29 -short -fastq trimm.fastq
Cборка на основе k-меров была произведена программой velvetg, которая строит граф де Брёйна — ориентированный n-мерный граф из m символов, отражающий пересечения между последовательностями символов. Он имеет m^n вершин, состоящих из всех возможных последовательностей длины n из данных символов. Один и тот же символ может встречаться в последовательности несколько раз.
Для запуска использовалась команда:
velvetg k_dir
В итоге были получены файлы с графами: PreGraph, LastGraph, Graph, а также contigs.fa, содержащий последовательности контигов и stats.txt, содержащий статистику.
Построоенный граф имеет 5128 вершины, N50 = 82.Стоит отметить, что количество вершин не обязательно соответствует количеству контигов, так как "нормальными" являются только контиги длины не менее 29. Именно они прописываются в файле contigs.fa.
Для дальнейшего анализа контигов был взят файл contigs.fa. Далее, чтобы извлечь строки с описаниями контигов была использована команда:
grep '>' contigs.fa > contigs.txt
На основе извлеченных данных была построена таблица [xlsx], все параметры приведены в k-мерах(для расчёта длины в нуклеотидах нужно просто добавить k–1).
node | Длина | Покрытие | Файл с последовательностью | 312 | 434 | 6.352535 | con312.fa |
8 | 594 | 9.500000 | con8.fa |
119 | 607 | 7.377265 | con119.fa |
Сравнение трех контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253) в megablast не дало никаких результатов.
Аналогичный анализ для контигов с аномальными покрытиями проведён не был, поскольку, как было сказано, таких у меня просто не получилось.