Практикум 15. Сборка генома de novo

Подготовка чтений

Подготовка чтений была сделана с использованием следующих команд:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240358/SRR4240358.fastq.gz

cat ../../adapters/*-SE.fa >> adapters.fasta

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358.fastq.gz SRR4240358_noadapt.fastq ILLUMINACLIP:adapters.fasta:2:7:7

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358_no_adapters.fastq.gz SRR4240358_good.fastq TRAILING:20 MINLEN:32

velveth ./velv 31 -fastq -short SRR4240358_good.fastq

velvetg ./velv

Мы последовательно убираем остатки адаптеров, удаляем с концов нуклеотиды плохого качества и оставляем только чтения длиной не меньше 32 нуклеотидов. Изменения в количестве чтений можно увидеть ниже:

Input Reads: 10543839 Surviving: 10368884 (98.34%) Dropped: 174955 (1.66%)

Input Reads: 10368884 Surviving: 8016437 (77.31%) Dropped: 2352447 (22.69%)

При этом размер файла изменился с 1.1G до 826M.

Анализ полученных данных

Всего было получено 367 контигов, из которых самые длинные - NODE_34 (18714), NODE_40 (16436) и NODE_56 (19821), с процентами покрытия 29.922678, 30.793624 и 29.475859 соответственно. Был использован алгоритм megablast. N50 = 13 114.

Результаты выравниваний в BLAST приведены ниже:

Характеристики выравниваний

Рис. 1 Выравнивание NODE_34
query acc.ver subject acc.ver % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score
NODE_34_length_18714_cov_29.922678 CP009253.1 85.405 2220 294 23 9387 11586 17962 20171 0.0 2278
NODE_34_length_18714_cov_29.922678 CP009253.1 77.613 3779 706 104 15025 18744 23067 26764 0.0 2163
NODE_34_length_18714_cov_29.922678 CP009253.1 75.969 3225 689 66 6139 9309 14727 17919 0.0 1583
NODE_34_length_18714_cov_29.922678 CP009253.1 78.297 2525 498 46 1 2495 8599 11103 0.0 1581
NODE_34_length_18714_cov_29.922678 CP009253.1 81.524 1851 291 41 12176 14000 20358 22183 0.0 1476
NODE_34_length_18714_cov_29.922678 CP009253.1 82.008 478 77 8 5505 5979 13994 14465 1.64e-110 398
Таблица 1 Характеристики выравнивания NODE_34 с референсным геномом
Рис. 2 Выравнивание NODE_40
query acc.ver subject acc.ver % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score
NODE_40_length_16436_cov_30.793623 CP009253.1 76.756 6961 1414 167 3 6889 474242 467412 0.0 3703
NODE_40_length_16436_cov_30.793623 CP009253.1 76.989 5015 992 135 6919 11860 467421 462496 0.0 2719
Таблица 2 Характеристики выравнивания NODE_40 с референсным геномом
Рис. 3 Выравнивание NODE_56
query acc.ver subject acc.ver % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score
NODE_56_length_19821_cov_29.475859 CP009253.1 75.618 8617 1750 265 5342 13787 500370 508806 0.0 3949
NODE_56_length_19821_cov_29.475859 CP009253.1 81.425 4393 739 57 15478 19851 510438 514772 0.0 3520
NODE_56_length_19821_cov_29.475859 CP009253.1 75.301 4324 914 121 948 5226 496111 500325 0.0 1927
Таблица 3 Характеристики выравнивания NODE_56 с референсным геномом