1. Подготовка чтений программой trimmomatic.

Так как у меня не было индивидуального кода доступа к проекту по секвенированию бактерии Buchnera aphidicola, пришлось использовать код, приведенный в примере задания - SRR4240381.

Скачанный архив с прочтениями был распакован командой gunzip в папку /nfs/srv/databases/ngs/morozova_ea. Адаптеры для Illumina собраны в файлах в директории /P/y15/term3/block4/adapters. Для удобства они были объединенны в один файл adapters.fasta командой

cat /P/y15/term3/block4/adapters/*fa >> /nfs/srv/databases/ngs/morozova_ea/adapters.fasta

Далее были удалены возможные остатки адаптеров с помощью команды
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240381.fastq srr381_out.fastq ILLUMINACLIP:adapters.fasta:2:7:7

Далее с концов чтений были удалены плохие буквы, оставлены только чтения не менее 30

java -jar /usr/share/java/trimmomatic.jar SE -phred33 srr381_out.fastq trimm381.out TRAILING:3 MINLEN:30

(MINLEN:30прочтения короче 30; TRAILING:3 — нуклеотиды не ниже качества «3» с конца прочтений)

После чистки из 13 710 994 ридов осталось 13 686 741: удалено 24 253 ридов, что составляет всего лишь 0,18% от изначального числа. Результаты анализа качества ридов с помощью команды fastq *filename* представлены в таблице ниже.

Сравнительная характеристика ридов
  До чистки После чистки
Общая статистика
Качество п.н. в ридах

Полученные файлы SRR4240381_fastqc.html и trimm_fastqc.html.

2. Работа с программой velvet.

Программа velveth осуществляет сборку генома из коротких последовательностей с помощью графов де Брайна.

Для подготовки k-меров длиной 29 была использована команда
velveth k_mer 29 -fastq -short trimm.out,
где k_mer - название папки для записи выходных файлов. Длина k-меров равна 29, -short задает параметр того, что чтения короткие и непарные, -fastq, что входные файлы задаются в соответствующем формате. Входной файл trimm.fastq содержит очищенные чтения.

Де факто: программа не захотела работать с к-мерами длиной даже 28, в итоге сторговались на 27.

Сборка на основе k-меров программой velvetg. Получено два файла: с контигами — contigs.fa, и со статистикой – stats.txt.

Итоговое число узлов графа (контигов) — 11 925. N50 (bp) – 663.

Характеристики трех самых длинных контига.
ID
Длина
Покрытие
11

22 384

77.183747

22

21 949

61.502848

15

15 760

63.465736

Контиги с аномально большим покрытием:

Анализируя данные из файла stats.txt, нетрудно заметить, что аномально большим покрытием обладают в основном контиги длиной от 1 до 3 (30-90 пн).

Принимая за стандартное покрытие величину 9 (медиана) аномально больших покрытий достаточно много.

С помощью программы megablast сделаем выравнивание 3-х самых больших контигов и одного с аномально длинным покрытие относительно хромосомы Buchnera aphidicola (CP009253.1). NB: Выравнивание для контига длиной 1 с аномально большим покрытием не рассматривается, так как это бессмыслено. Для контига с аномально длинным покрытием был использован алгоритм blastn, так как megablast не смог найти схожих последовательностей.

Характеристики выравнивания контигов с хромосой Buchnera aphidicola
ID
Контиг
Расположение на хромосоме
Query cover
Identity
E-value
Выравнивание
11
  1. 161898 to 166752
  2. 166750 to 173180
  3. 160331 to 161738
  4. 179654 to 180620
  5. 181712 to 182440
64%
80 %
0.00
22
  1. 307878 to 312179
  2. 299086 to 303252
  3. 312679 to 315982
53%
77%
0.00
15
  1. 336004 to 339010
  2. 343228 to 346547
  3. 348233 to 349674
  4. 349918 to 351970
  5. 341781 to 343052
70%
78%
0.00
4155
Не рассматриваем, так как значение e value слишком высокое.
12%
100%
2.00