I
С помощью кода доступа SRR4240387 был скачан .fastq-файл проекта по секвенированию бактерии Buchnera aphidicola. Был скачан архив с прочтениями, затем распакован командой gunzip SRR4240387.fastq.gz. Все адаптеры для Illumina из файлов в директории /P/y15/term3/block4/adapters были объединены в один файл adapters.fasta командой cat /P/y15/term3/block4/adapters/*fa >> /nfs/srv/databases/ngs/s.isaev/de_novo/adapters.fasta. С помощью программы Trimmomatic была проведена очистка чтений. Сначала при помощи команды java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387.fastq SRR4240387_noad.fastq ILLUMINACLIP:adapters.fasta:2:7:7 были удалены возможные адаптеры (были отброшены 3153 чтения, остались 15029657 чтений), потом была произведена обрезка некачественных концов чтений, а также их отбор по качеству при помощи команды java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387_noad.fastq SRR4240387_trim.fastq TRAILING:20 MINLEN:30. После такой обработки осталось всего 4437416 чтений (это около 30%), остальные 70% были отбракованы. В итоге размер файла сократился с 1614 Мб до 445 Мб.
II
Для подготовки k-меров длиной 29 была использована команда velveth k_mer 29 -fastq -short SRR4240387_trim.fastq. k_mer — это название папки для записи выходных файлов; длина k-меров равно 29, -short задает, что чтения короткие и непарные, -fastq, что входные файлы задаются в соответствующем формате. В результате в директории k_mer оказались результаты работы программы.
III
Cборка на основе k-меров была произведена программой velvetg с использованием данных, полученных на предыдущем этапе. Velvetg строит граф де Брёйна - ориентированный n-мерный граф из m символов, отражающий пересечения между последовательностями символов. Он имеет mn вершин, состоящих из всех возможных последовательностей длины n из данных символов. Один и тот же символ может встречаться в последовательности несколько раз. Запуск программы без дополнительных параметров позволят получить .fasta-файл с контигами и статистические данные в указанной директории. Получено 2 файла: contigs.fa с последовательностями контигов и stats.txt, со статистикой. Всего было найдено 916 контигов длиной не менее 29. N50 — 1374; самыми длинными получились контиги с ID 78 (длина 7399, покрытие 33.421679), 26 (длина 6230, покрытие 25.778652) и 21 (длина 5261, покрытие 23.969397). Присутствуют контиги с аномально большим покрытием — например, ID 125 (покрытие 406.414286, длина 280) и 139 (покрытие 376.458333 и длина 192) при среднем значении покрытия 14.5. Также присутствуют контиги и с аномально маленьким покрытием (например, ID 877 c покрытием 2.028986 и длиной 69; ID 893 с длиной 29 и покрытием 2.103448).
IV
Для трех самых длинных контигов (1, 2, 3) был запущен megablast с хромосомой бактерии Buchnera aphidicola (GenBank/EMBL AC — CP009253). Построенные выравнивания можно назвать достаточно неплохими.
ID | Координаты в геноме | Query cover | Identity | E-value | Gaps | Mismatch |
78 | 35162:52578 | 99% | 84% | 0.0 | 66 | 1219 |
26 | 536550:542787 | 99% | 80% | 0.0 | 111 | 1248 |
21 | 584329:587054 | 51% | 76% | 0.0 | 108 | 677 |
Далее требовалось выполнить аналогичный анализ для двух контигов с аномально большим покрытием. При запуске megablast с дефолтными параметрами описанные ранее «аномальные» контиги не выравнялись, выдавалось сообщение «No significant similarity found». При запуску алгоритма blastn контиги с аномально высоким покрытием выравнивались с E-value больше 1. Вероятно, покрытие такое большое из-за малой длины контига: высока вероятность случайного соответствия.