Сборка генома de novo

I

С помощью кода доступа SRR4240387 был скачан .fastq-файл проекта по секвенированию бактерии Buchnera aphidicola. Был скачан архив с прочтениями, затем распакован командой gunzip SRR4240387.fastq.gz. Все адаптеры для Illumina из файлов в директории /P/y15/term3/block4/adapters были объединены в один файл adapters.fasta командой cat /P/y15/term3/block4/adapters/*fa >> /nfs/srv/databases/ngs/s.isaev/de_novo/adapters.fasta. С помощью программы Trimmomatic была проведена очистка чтений. Сначала при помощи команды java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387.fastq SRR4240387_noad.fastq ILLUMINACLIP:adapters.fasta:2:7:7 были удалены возможные адаптеры (были отброшены 3153 чтения, остались 15029657 чтений), потом была произведена обрезка некачественных концов чтений, а также их отбор по качеству при помощи команды java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387_noad.fastq SRR4240387_trim.fastq TRAILING:20 MINLEN:30. После такой обработки осталось всего 4437416 чтений (это около 30%), остальные 70% были отбракованы. В итоге размер файла сократился с 1614 Мб до 445 Мб.

II

Для подготовки k-меров длиной 29 была использована команда velveth k_mer 29 -fastq -short SRR4240387_trim.fastq. k_mer — это название папки для записи выходных файлов; длина k-меров равно 29, -short задает, что чтения короткие и непарные, -fastq, что входные файлы задаются в соответствующем формате. В результате в директории k_mer оказались результаты работы программы.

III

Cборка на основе k-меров была произведена программой velvetg с использованием данных, полученных на предыдущем этапе. Velvetg строит граф де Брёйна - ориентированный n-мерный граф из m символов, отражающий пересечения между последовательностями символов. Он имеет mn вершин, состоящих из всех возможных последовательностей длины n из данных символов. Один и тот же символ может встречаться в последовательности несколько раз. Запуск программы без дополнительных параметров позволят получить .fasta-файл с контигами и статистические данные в указанной директории. Получено 2 файла: contigs.fa с последовательностями контигов и stats.txt, со статистикой. Всего было найдено 916 контигов длиной не менее 29. N50 — 1374; самыми длинными получились контиги с ID 78 (длина 7399, покрытие 33.421679), 26 (длина 6230, покрытие 25.778652) и 21 (длина 5261, покрытие 23.969397). Присутствуют контиги с аномально большим покрытием — например, ID 125 (покрытие 406.414286, длина 280) и 139 (покрытие 376.458333 и длина 192) при среднем значении покрытия 14.5. Также присутствуют контиги и с аномально маленьким покрытием (например, ID 877 c покрытием 2.028986 и длиной 69; ID 893 с длиной 29 и покрытием 2.103448).

IV

Для трех самых длинных контигов (1, 2, 3) был запущен megablast с хромосомой бактерии Buchnera aphidicola (GenBank/EMBL AC — CP009253). Построенные выравнивания можно назвать достаточно неплохими.

IDКоординаты в геномеQuery coverIdentityE-valueGapsMismatch
7835162:5257899%84%0.0661219
26536550:54278799%80%0.01111248
21584329:58705451%76%0.0108677

Далее требовалось выполнить аналогичный анализ для двух контигов с аномально большим покрытием. При запуске megablast с дефолтными параметрами описанные ранее «аномальные» контиги не выравнялись, выдавалось сообщение «No significant similarity found». При запуску алгоритма blastn контиги с аномально высоким покрытием выравнивались с E-value больше 1. Вероятно, покрытие такое большое из-за малой длины контига: высока вероятность случайного соответствия.