Сборка генома de novo

1) Был выдан код доступа проекта по секвенированию бактерии Buchnera aphidicola Проект доступен по данному адресу: ссылка. На странице проекта был скачен архив формата fastq. Далее файл был перенесен в рабочую директорию /nfs/srv/databases/ngs/asya.kalashnikova. И был распакован с помощью команды (1) Были получен файл: SRR4240388.fastq.
2) Подготовка чтений программой trimmomatic: Необходимо было удалить возможные остатки адаптеров (ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta - файл с адаптерами), а также удалить плохие буквы с конца чтений, оставив чтения длиной не менее 30. Это было сделано с помощью команды (2). Предварительно был создан файл adapters.fasta, состоящий из объединения всех адаптеров из файлов из директории /P/y15/term3/block4/adapters.
До чистки: размер - 1157 Mb, количество чтений - 10833163.
После чистки: размер - 745 Mb, количество чтений - 7335602 (67,71%).
Таким образом, было удалено в процессе чистки: 3497561 (32,29%).
3) В данном задании необходимо было запустить velveth так, чтобы она подготовила k-меры длины k=29. Это было сделано с помощью команды (3), где "short" - обозначает короткие и непарные чтения, а 2-ое "velveth" - директорию, куда будут записываться файлы. Было получено 3 файла: Log; Sequences; Roadmaps.
4) Здесь нужно было воспользоваться программой velvetg, которая осуществляет сборку на основе k-меров. Была запущена команда (4).
Всего контигов: 1248; N50: 3376 bp; Общая длина данной последовательности: 664886. Максимальная длина контига: 16590; Среднее покрытие: 594,55.

Таблица 1. Самые длинные контиги

Контиг (ID) Длина Покрытие
34 16590 42.634720
41 16373 49.329995
26 14691 55.265264

Таблица 2. Контиги с аномально большим покрытием

Контиг (ID) Длина Покрытие
1172 1 595570
1206 1 4793
Ссылка на таблицу Excel с полученными данными

5) Анализ: были получены файлы последовательностей 3 самых длинных контигов: contig_34.fasta, contig_41.fasta, contig_26.fasta. Далее было необходимо сравнить программой megablast каждый из 3 контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Для этого был выставлен параметр: "Align two or more sequences". В таблице 3 представлена информация по выравниваниям одного из длиннейших контига/хромосомы Для контигов с аномально большим покрытием выравнивания построены не были из-за их единичной длины. Вероятность перекрытия короткого участка намного выше, нежелели длинного, поэтому короткие участки намного чаще имеют больший показатель покрытия.

Таблица 3. Характеристика выравниваний контигов/хромосомы

Контиг (ID) Координаты участка хромосомы, соответствующего контигу Gaps E-value Query cover Ident Total score
26 147305-151796,
153752-161738,
63/4524(1%), 270/8171(3%) 0.0 1% 78% 8301
34 324950-326950,
327227-330003,
333222-339010
65/2034(3%), 109/2828(3%), 187/5897(3%) 0.0 1% 76% 5164
41 2004-9059,
621055-627107
204/7154(2%), 246/6176(3%) 0.0 2% 78% 7344

Рис. 1 - Выравнивание контига_26/хромосомы

Рис. 2 - Выравнивание контига_34/хромосомы

Рис. 3 - Выравнивание контига_41/хромосомы


(1) gunzip SRR4240388.fastq.gz
(2) java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240388.fastq bacteria.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30
(3) velveth velveth 29 -short -fastq bacteria.fastq
(4) velvetg velveth

© Kalashnikova Anastasia, 2016