Сборка генома de novo

Проект по секвенированию бактерии Buchnera aphidicola доступен по этому адресу. Там находятся короткие чтения (длины 36), полученные по технологии Illumina.

1. Обработка чтений

В скобках в колонаках с файлами указан их размер.
Входной файл Выходной файл Команда Описание
файлы с адаптерами тут - /P/y16/term3/block3/adapters adapters.fasta
cat *.fa >> /nfs/srv/databases/ngs/
catherine.nesterenko/
pr14/adapters.fasta
Получение единого файла с адаптерами.
SRR4240356.fastq (757 M) trim.fastq (741 M)
 java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/
trimmomatic-0.30.jar SE -phred33 
SRR4240356.fastq trim.fastq 
ILLUMINACLIP:adapters.fasta:2:7:7
Были удалены адаптеры с концов чтений.
Количество ридов - Было: 7511529

Стало: 7358424 (97,96%)

Удалено ридов: 153105 (2,04%)
trim.fastq (741 M) good.fastq (740 M)
Удаление чтений с длиной меньше 30.
Количество ридов - Было: 7358424

Стало: 7342380 (99,78%)

Удалено ридов: 16044 (0,22%)

2. Подготовка k-меров

С помощью следующей комнады были получены k-меры длины 29. Это максимальная длина для длины наших ридов. kmers - это директория для выходных файлов. -short - указание на то, что у нас короткие чтения, - fastq - указание на файл с подготовленными ридами.
 velveth kmers 29 -short -fastq good.fastq

3. Сборка генома на основе k-меров

Используя полученные ранее данные, с помощью программы velvetg получим собранный геном.
velveth kmers

Выдача программы записывается в ту же директорию, что и в предыдущем пункте.

N50 - 46003

Максимальная длина - 75082
Сравнительная таблица для трех самых длинных контигов.
ID контига Длина контига Покрытие
10 75082 54.98
9 73963 52.64
16 73133 50.10
Среднее значение покрытия - 84,38; медиана - 14,38.
Сравнительная таблица для трех контигов с аномальными покрытиями.
ID контига Длина контига Покрытие
38 127 671,88
17 413 638,92
291 66 2,26

4. Анализ полученных данных

Был проведен анализ самых длинных контигов с помощью MegaBlast. Контиги были выровнены с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Указанные координаты собраны из координат кусочных выравниваний.
ID контига Длина контига Покрытие Координаты на хромосоме Число гэпов Цепи Процент сходства
10 75082 54.98 2004 - 627104 125 +\- 83%
9 73963 52.64 478095 - 550977 545 +\+ 81%
16 73133 50.10 384182 - 445895 373 +\+ 74%
ID - 10 Данный контиг инвертирован относительно участка хромосомы. Было найдено 13 выравниваний. У хромосомы и контига разное направление цепей. Сам контиг был разбит на 2 части. У данного контига лучшие показатели идентичности с хромосомой.
ID - 9 Контиг 9 и хромосома имеют одинаковое направление цепей. Найдено 12 выравниваний отдельных участков контига с хромосомой. Инверсии отсутствуют. Одно из выравниваний имеет лучший максимальный вес - 17304.
ID - 16 Найдено 15 кусочных выравниваний. Инверсии отсутствуют. У этого контига ниже процент идентичности, чем у двух других.

© Нестеренко Екатерина 2018