Сборка генома de novo (SRR4240358)
Что было сделано:
- программой trimmomatic были подготовлены чтения проекта
- были подготовлены k-меры длины k=31 (максимально возможной при нашей длине чтений)
- были найдены N50, длины трёх самых длинных контигов и их покрытие
- был проведен анализ контигов с хромосомой Buchnera aphidicola
Задание 1.
Описание |
Команда |
cat *.fa >> /nfs/srv/databases/ngs/spyro/adapters.fa |
Объединение файлов с адаптерами |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240358.fastq without_adapters.fastq ILLUMINACLIP:adapters.fa:2:7:7 |
Удаление возможных остатков адаптеров(1,66% ридов оказались остатками адаптеров) |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 without_adapters.fastq trim.fastq TRAILING:20 MINLEN:32 |
Удаление чтений плохого качества и слишком малой длины |
|
|
Было ридов до очистки от адаптеров |
Стало ридов после очистки |
Размер файла до очистки |
Размер файла после очистки |
10543839 |
8016437 (77,31%) |
1179775440 байт (1,1 Гб) |
865076716 байт (0,81 Гб) |
Задание 2
Команда |
Описание |
velveth kmers 31 -fastq -short trim.fastq |
Создание библиотеки к-меров |
Задание 3
Команда |
Описание |
velvetg kmers |
Сборка на основе к-меров |
Результат работы программы velvetg:
Final graph has 361 nodes and n50 of 8739, max 19821, total 655645, using 0/8016437 reads
N50: 8739
Контиг № |
Длина |
Покрытие |
56 |
19821 |
29.475859 |
31 |
18283 |
29.892031 |
34 |
18714 |
29.922678 |
Встретилась аномалия:
- в 18 контиге длины 60 нуклеотидов покрытие 412.100006
- в 42 контиге длины 949 покрытие 266.472076
- в 48 контиге длины 429 покрытие 248.417252
- в 49 контиге длины 622 покрытие 281.516083
Задание 4
Контиг 31
Описание |
Участок 1 |
Участок 2 |
Участок 3 |
Координаты участка хромосомы |
584329 to 587055 |
597480 to 598215 |
593743 to 594099 |
Число мисматчей |
677/2777 (24%) |
191/757 (25%) |
70/359 (19%) |
Число гэпов |
108/2777(3%) |
53/757(7%) |
4/359(1%) |
Цепь |
обратная |
обратная |
обратная |
Контиг 34
Описание |
Участок 1 |
Участок 2 |
Участок 3 |
Участок 4 |
Участок 5 |
Участок 6 |
Координаты участка хромосомы |
17962 to 20171 |
23067 to 26764 |
14727 to 17919 |
8599 to 11103 |
20358 to 22183 |
13994 to 14465 |
Число мисматчей |
324/2220 (15%) |
846/3779 (22%) |
775/3225 (24%) |
548/2525 (22%) |
342/1851 (18%) |
86/478 (18%) |
Число гэпов |
30/2220(1%) |
140/3779(3%) |
86/3225(2%) |
50/2525(1%) |
51/1851(2%) |
9/478(1%) |
Цепь |
прямая |
прямая |
прямая |
прямая |
прямая |
прямая |
Контиг 56
Описание |
Участок 1 |
Участок 2 |
Участок 3 |
Координаты участка хромосомы |
500370 to 508806 |
510438 to 514772 |
496111 to 500325 |
Число мисматчей |
2101/8617 (24%) |
816/4393 (19%) |
1068/4324 (15%) |
Число гэпов |
351/8617(4%) |
77/4393(1%) |
154/4324(3%) |
Цепь |
прямая |
прямая |
прямая |
↵ назад
✬ на главную