Практикум 15

Сборка De novo

С начала с использованием кода доступа SRR4240388 был скачан файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq.gz и распакован.

gunzip reads.fastq.gz

Первый этап. Подготовка чтений программой Trimmomatic.

Чтения были очищены этой программой. Это очистило их от адаптеров удалило с конца нуклеотиды с качеством ниже 20 и чтения длины менее 30. Результаты изменений представлены в таблице.

java -jar /usr/share/java/trimmomatic.jar SE -phred33 reads.fastq
reads_trim.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30
Исходное число чтений Размер исходного файла Число оставшихся чтений Размер получившегося файла Число отброшенных чтений
10833163 1,2 Гб 7331225 (67,67%) 780 Мб 3501938 (32,33%)

Этап второй. Подготовка k-меров

Перед последуйщей сборкой была составлена хэш-таблица при помощи программы velveth. k-меры были подготовлены следуйщей командой:

velveth k_mer 29 -short -fastq reads_trim.fastq

Третий этап. Сборка на основе k-меров

Сборка осуществлялась программой velvetg. И velveth, и velvetg основаны графах де Брёйна. Итоги работы:

velvetg k_mer
Финальное число узлов графа (число контигов) N50 (bp) Общая длина последовательность генома (bp) Длины 3-х самых длинных контигов (bp) Покрытия самых длинных контигов
1256 3346 664964 (43) 16373,(27) 14691,(19) 14095 49,321810, 55,265264, 41,445406

Данные получены обработкой файла stats.txt

- 590,80 - среднее покрытие по всем контигам

- 99,29 - среднее контигов длиной больше 1

- 19,01 - медиана покрытий всех контигов

- 16,51 - медиана контигов длиной больше 1

Поэтому логичнее всего принять, что типичным покрытием является значение около 18-ти

Имеются аномально большие контиги: например ID 1208 с покрытием 595570, правда он длины один или ID 1231 с покрытием 4793 также длины один. Контиги адекватной длины аномально большие относительно среднего без единичных: ID 267 длина: 148 покрытие: 864. Аномально большие покрытия в принципе встречаются скорее среди коротких контигов, что логично, поскольку вероятность покрытия короткого участка гораздо выше.

Этап четвертый. Анализ самых длиных контигов.

ID контига Его особенность Координаты участка хромосомы, соответствующие контигу Идентичность выравнивания Число гэпов в выранивании
43 Самый длинный контиг 1) 2004 to 9041
2) 621055 to 627104
1) 78%
2) 76%
1) 2%
2) 3%
27 2-ой по длине 1) 153752 to 161738
2) 147305 to 151796
1) 78%
2) 81%
1) 3%
2) 1%
19 3-ий по длине 1) 467412 to 474667
2) 462496 to 467421
1) 77%
2) 77%
1) 2%
2) 3%

Если пытаться проделать с контигами с аномально большим покрытием, бласт не выдает значимых выравниваний, поскольку раз покрытий много, значит в геноме встречается часто и нормально выровнять нельзя.

Term 3

Main page


© Artemiy Polozhintsev (Артемий Положинцев) 2016