С начала с использованием кода доступа SRR4240388 был скачан файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq.gz и распакован.
gunzip reads.fastq.gz
Чтения были очищены этой программой. Это очистило их от адаптеров удалило с конца нуклеотиды с качеством ниже 20 и чтения длины менее 30. Результаты изменений представлены в таблице.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 reads.fastq reads_trim.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30
Исходное число чтений | Размер исходного файла | Число оставшихся чтений | Размер получившегося файла | Число отброшенных чтений |
---|---|---|---|---|
10833163 | 1,2 Гб | 7331225 (67,67%) | 780 Мб | 3501938 (32,33%) |
Перед последуйщей сборкой была составлена хэш-таблица при помощи программы velveth. k-меры были подготовлены следуйщей командой:
velveth k_mer 29 -short -fastq reads_trim.fastq
Сборка осуществлялась программой velvetg. И velveth, и velvetg основаны графах де Брёйна. Итоги работы:
velvetg k_mer
Финальное число узлов графа (число контигов) | N50 (bp) | Общая длина последовательность генома (bp) | Длины 3-х самых длинных контигов (bp) | Покрытия самых длинных контигов |
---|---|---|---|---|
1256 | 3346 | 664964 | (43) 16373,(27) 14691,(19) 14095 | 49,321810, 55,265264, 41,445406 |
Данные получены обработкой файла stats.txt
- 590,80 - среднее покрытие по всем контигам
- 99,29 - среднее контигов длиной больше 1
- 19,01 - медиана покрытий всех контигов
- 16,51 - медиана контигов длиной больше 1
Поэтому логичнее всего принять, что типичным покрытием является значение около 18-ти
Имеются аномально большие контиги: например ID 1208 с покрытием 595570, правда он длины один или ID 1231 с покрытием 4793 также длины один. Контиги адекватной длины аномально большие относительно среднего без единичных: ID 267 длина: 148 покрытие: 864. Аномально большие покрытия в принципе встречаются скорее среди коротких контигов, что логично, поскольку вероятность покрытия короткого участка гораздо выше.
ID контига | Его особенность | Координаты участка хромосомы, соответствующие контигу | Идентичность выравнивания | Число гэпов в выранивании |
---|---|---|---|---|
43 | Самый длинный контиг | 1) 2004 to 9041 2) 621055 to 627104 |
1) 78% 2) 76% |
1) 2% 2) 3% |
27 | 2-ой по длине | 1) 153752 to 161738 2) 147305 to 151796 |
1) 78% 2) 81% |
1) 3% 2) 1% |
19 | 3-ий по длине | 1) 467412 to 474667 2) 462496 to 467421 |
1) 77% 2) 77% |
1) 2% 2) 3% |
Если пытаться проделать с контигами с аномально большим покрытием, бласт не выдает значимых выравниваний, поскольку раз покрытий много, значит в геноме встречается часто и нормально выровнять нельзя.
Term 3 Main page