Сборка генома de novo

На данной странице представлен практикум по сборке генома de novo бактерии Buchnera aphidicola. Для анализа были взяты прочтения с кодом доступа SRR4240381 длины 39 нуклеотидов.

1) Скачивание чтений:

Для загрузки прочтений была выполнена следующая команда:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240381/SRR4240381.fastq.gz

2) Подготовка чтений программой trimmomatic:

Для удаления адаптеров из изучаемых прочтений была выполнена следующая команда:

cat /mnt/scratch/NGS/adapters/* > ./adapters.fasta

которая вносит последовательности адаптеров из всех файлов директории /mnt/scratch/NGS/adapters/ в один файл. Далее с помощью команды:

java -jar /usr/share/java/trimmomatic.jar SE -threads 8 -phred33 SRR4240381.fastq.gz trim.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:32

было проведено триммирование прочтений с параметрами: минимальная длина - 32 нуклеотида; порог качества - 20. Из 13 710 994 чтений после удаления адаптеров и нуклеотидов с низким качеством не прошли минимальный порог длины и были удалены 2 491 178 (18.17%). Вес изначального файла был 0,55 гигабайта, после триммирования - 0,42 гигабайта.

3) Подготовка k-меров:

Подготовка k-меров длины 31 нуклеотид была проведена с помощью команды:

velveth Assem 31 -short -fastq.gz trim.fastq.gz

4) сборка на основе k-меров:

Сборка контигов была проведена с помощью команды:

velvetg Assem

В результате было получено 2935 контигов суммарной длины 960 418 нуклеотидов. N50 для данной сборки - 5987. Описание трех самых длинных контигов представлено в таблице:

Номер контига:Длина контига:Покрытие:Число выравниваний:Границы контига на хромосоме,
длина выравнивания:
Identities, gaps:
169671 нуклеотид33.113с 467412 до 474667, 7388
c 500370 до 508806, 8617
c 510438 до 516539, 6234
c 523105 до 528679, 5685
c 462496 до 467421, 5015
c 481997 до 488106, 6238
5691(77%), 208(2%)
6516(76%), 351(4%)
4897(79%), 187(2%)
4369(77%), 207(3%)
3861(77%), 162(3%)
4621(74%), 308(4%)
227474 нуклеотида38.84c 2004 до 11103, 9221
c 615561 до 620926, 5434
с 621055 до 627104, 6170
с 13994 до 14465, 478
7229(78%), 252(2%)
4230(78%), 119(2%)
4678(76%), 240(3%)
392(82%), 9(1%)
326062 нуклеотида35.11c 101712 до 108876, 72745571(77%), 215(2%)

Стоит также отметить, что в сборке присутствует большое количество (около 2 тысяч) коротких контигов с длиной менее 100 нуклеотидов.

© Беляев Геннадий, 2020 ‐ 2026