Сборка генома de novo
На данной странице представлен практикум по сборке генома de novo бактерии Buchnera aphidicola.
Для анализа были взяты прочтения с кодом доступа SRR4240381 длины 39 нуклеотидов.
1) Скачивание чтений:
Для загрузки прочтений была выполнена следующая команда:
2) Подготовка чтений программой trimmomatic:
Для удаления адаптеров из изучаемых прочтений была выполнена следующая команда:
которая вносит последовательности адаптеров из всех файлов директории /mnt/scratch/NGS/adapters/ в один файл. Далее с помощью команды:
было проведено триммирование прочтений с параметрами: минимальная длина - 32 нуклеотида; порог качества - 20. Из 13 710 994 чтений после удаления адаптеров и нуклеотидов с низким качеством не прошли минимальный порог длины и были удалены 2 491 178 (18.17%). Вес изначального файла был 0,55 гигабайта, после триммирования - 0,42 гигабайта.
3) Подготовка k-меров:
Подготовка k-меров длины 31 нуклеотид была проведена с помощью команды:
4) сборка на основе k-меров:
Сборка контигов была проведена с помощью команды:
В результате было получено 2935 контигов суммарной длины 960 418 нуклеотидов. N50 для данной сборки - 5987. Описание трех самых длинных контигов представлено в таблице:
Номер контига: | Длина контига: | Покрытие: | Число выравниваний: | Границы контига на хромосоме, длина выравнивания: | Identities, gaps: |
---|---|---|---|---|---|
1 | 69671 нуклеотид | 33.1 | 13 | с 467412 до 474667, 7388 c 500370 до 508806, 8617 c 510438 до 516539, 6234 c 523105 до 528679, 5685 c 462496 до 467421, 5015 c 481997 до 488106, 6238 | 5691(77%), 208(2%) 6516(76%), 351(4%) 4897(79%), 187(2%) 4369(77%), 207(3%) 3861(77%), 162(3%) 4621(74%), 308(4%) |
2 | 27474 нуклеотида | 38.8 | 4 | c 2004 до 11103, 9221 c 615561 до 620926, 5434 с 621055 до 627104, 6170 с 13994 до 14465, 478 | 7229(78%), 252(2%) 4230(78%), 119(2%) 4678(76%), 240(3%) 392(82%), 9(1%) |
3 | 26062 нуклеотида | 35.1 | 1 | c 101712 до 108876, 7274 | 5571(77%), 215(2%) |
Стоит также отметить, что в сборке присутствует большое количество (около 2 тысяч) коротких контигов с длиной менее 100 нуклеотидов.