На главную

Сборка De novo

Анализ качества чтений

С начала с использованием кода доступа SRR4240389 был скачан файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq.gz и распакован.

gunzip reads.fastq.gz

Первый этап. Подготовка чтений программой Trimmomatic.

Чтения были очищены этой программой. Это очистило их от адаптеров удалило с конца нуклеотиды с качеством ниже 20 и чтения длины менее 30. Результаты изменений представлены в таблице.

java -jar /usr/share/java/trimmomatic.jar SE -phred33 reads.fastq
reads_trim.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30
Исходное число чтений Размер исходного файла Число оставшихся чтений Размер получившегося файла Число отброшенных чтений
12950609 1,4 Гб 6349471 (49,03%) 670 Мб 6601138 (50,97%)

Этап второй. Подготовка k-меров

Перед последуйщей сборкой была составлена хэш-таблица при помощи программы velveth. k-меры были подготовлены следуйщей командой:

velveth k_mer 29 -short -fastq reads_trim.fastq

Третий этап. Сборка на основе k-меров

Сборка осуществлялась программой velvetg. И velveth, и velvetg основаны графах де Брёйна. Итоги работы:

velvetg k_mer
Финальное число узлов графа (число контигов) N50 (bp) Общая длина последовательность генома (bp) Длины 3-х самых длинных контигов (bp) Покрытия самых длинных контигов
1144 3126 654296 15093 (36),
11042 (2),
10741 (62)
37.146889,
47.157942,
38.263197

Данные получены обработкой файла stats.txt

- 601,12 - среднее покрытие по всем контигам

- 55,75 - среднее контигов длиной больше 1

- 20,13 - медиана покрытий всех контигов

- 17,50 - медиана контигов длиной больше 1

Поэтому логичнее всего принять, что типичным покрытием является значение около 18-ти

Имеются аномально большие контиги: например ID 1 с покрытием 597663, правда он длины один или ID 685 с покрытием 6436 также длины один. Контиги адекватной длины аномально большие относительно среднего без единичных: ID 303 длина: 27 покрытие: 926. Аномально большие покрытия в принципе встречаются скорее среди коротких контигов, что логично, поскольку вероятность покрытия короткого участка гораздо выше.

Этап четвертый. Анализ самых длиных контигов.

ID контига Его особенность Координаты участка хромосомы, соответствующие контигу Идентичность выравнивания Число гэпов в выранивании
36 Самый длинный контиг 1) 621055 to 627104
2) 617419 to 620926
1) 76%
2) 78%
1) 3%
2) 2%
2 2-ой по длине 534945 to 546014 79% 2%
62 3-ий по длине 1) 584329 to 587055
2) 580083 to 582686
1) 76%
2) 75%
1) 3%
2) 5%

© Посицельская Екатерина, 2015