С начала с использованием кода доступа SRR4240389 был скачан файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq.gz и распакован.
gunzip reads.fastq.gz
Чтения были очищены этой программой. Это очистило их от адаптеров удалило с конца нуклеотиды с качеством ниже 20 и чтения длины менее 30. Результаты изменений представлены в таблице.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 reads.fastq reads_trim.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30
Исходное число чтений | Размер исходного файла | Число оставшихся чтений | Размер получившегося файла | Число отброшенных чтений |
---|---|---|---|---|
12950609 | 1,4 Гб | 6349471 (49,03%) | 670 Мб | 6601138 (50,97%) |
Перед последуйщей сборкой была составлена хэш-таблица при помощи программы velveth. k-меры были подготовлены следуйщей командой:
velveth k_mer 29 -short -fastq reads_trim.fastq
Сборка осуществлялась программой velvetg. И velveth, и velvetg основаны графах де Брёйна. Итоги работы:
velvetg k_mer
Финальное число узлов графа (число контигов) | N50 (bp) | Общая длина последовательность генома (bp) | Длины 3-х самых длинных контигов (bp) | Покрытия самых длинных контигов |
---|---|---|---|---|
1144 | 3126 | 654296 | 15093 (36), 11042 (2), 10741 (62) |
37.146889, 47.157942, 38.263197 |
Данные получены обработкой файла stats.txt
- 601,12 - среднее покрытие по всем контигам
- 55,75 - среднее контигов длиной больше 1
- 20,13 - медиана покрытий всех контигов
- 17,50 - медиана контигов длиной больше 1
Поэтому логичнее всего принять, что типичным покрытием является значение около 18-ти
Имеются аномально большие контиги: например ID 1 с покрытием 597663, правда он длины один или ID 685 с покрытием 6436 также длины один. Контиги адекватной длины аномально большие относительно среднего без единичных: ID 303 длина: 27 покрытие: 926. Аномально большие покрытия в принципе встречаются скорее среди коротких контигов, что логично, поскольку вероятность покрытия короткого участка гораздо выше.
ID контига | Его особенность | Координаты участка хромосомы, соответствующие контигу | Идентичность выравнивания | Число гэпов в выранивании |
---|---|---|---|---|
36 | Самый длинный контиг | 1) 621055 to 627104 2) 617419 to 620926 |
1) 76% 2) 78% |
1) 3% 2) 2% |
2 | 2-ой по длине | 534945 to 546014 | 79% | 2% |
62 | 3-ий по длине | 1) 584329 to 587055 2) 580083 to 582686 |
1) 76% 2) 75% |
1) 3% 2) 5% |