Подготовка чтений была сделана с использованием следующих команд:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240358/SRR4240358.fastq.gz
cat ../../adapters/*-SE.fa >> adapters.fasta
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358.fastq.gz SRR4240358_noadapt.fastq ILLUMINACLIP:adapters.fasta:2:7:7
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358_no_adapters.fastq.gz SRR4240358_good.fastq TRAILING:20 MINLEN:32
velveth ./velv 31 -fastq -short SRR4240358_good.fastq
velvetg ./velv
Мы последовательно убираем остатки адаптеров, удаляем с концов нуклеотиды плохого качества и оставляем только чтения длиной не меньше 32 нуклеотидов. Изменения в количестве чтений можно увидеть ниже:
Input Reads: 10543839 Surviving: 10368884 (98.34%) Dropped: 174955 (1.66%)
Input Reads: 10368884 Surviving: 8016437 (77.31%) Dropped: 2352447 (22.69%)
При этом размер файла изменился с 1.1G до 826M.
Всего было получено 367 контигов, из которых самые длинные - NODE_34 (18714), NODE_40 (16436) и NODE_56 (19821), с процентами покрытия 29.922678, 30.793624 и 29.475859 соответственно. Был использован алгоритм megablast. N50 = 13 114.
Результаты выравниваний в BLAST приведены ниже:
query acc.ver | subject acc.ver | % identity | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
---|---|---|---|---|---|---|---|---|---|---|---|
NODE_34_length_18714_cov_29.922678 | CP009253.1 | 85.405 | 2220 | 294 | 23 | 9387 | 11586 | 17962 | 20171 | 0.0 | 2278 |
NODE_34_length_18714_cov_29.922678 | CP009253.1 | 77.613 | 3779 | 706 | 104 | 15025 | 18744 | 23067 | 26764 | 0.0 | 2163 |
NODE_34_length_18714_cov_29.922678 | CP009253.1 | 75.969 | 3225 | 689 | 66 | 6139 | 9309 | 14727 | 17919 | 0.0 | 1583 |
NODE_34_length_18714_cov_29.922678 | CP009253.1 | 78.297 | 2525 | 498 | 46 | 1 | 2495 | 8599 | 11103 | 0.0 | 1581 |
NODE_34_length_18714_cov_29.922678 | CP009253.1 | 81.524 | 1851 | 291 | 41 | 12176 | 14000 | 20358 | 22183 | 0.0 | 1476 |
NODE_34_length_18714_cov_29.922678 | CP009253.1 | 82.008 | 478 | 77 | 8 | 5505 | 5979 | 13994 | 14465 | 1.64e-110 | 398 |
query acc.ver | subject acc.ver | % identity | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
---|---|---|---|---|---|---|---|---|---|---|---|
NODE_40_length_16436_cov_30.793623 | CP009253.1 | 76.756 | 6961 | 1414 | 167 | 3 | 6889 | 474242 | 467412 | 0.0 | 3703 |
NODE_40_length_16436_cov_30.793623 | CP009253.1 | 76.989 | 5015 | 992 | 135 | 6919 | 11860 | 467421 | 462496 | 0.0 | 2719 |
query acc.ver | subject acc.ver | % identity | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
---|---|---|---|---|---|---|---|---|---|---|---|
NODE_56_length_19821_cov_29.475859 | CP009253.1 | 75.618 | 8617 | 1750 | 265 | 5342 | 13787 | 500370 | 508806 | 0.0 | 3949 |
NODE_56_length_19821_cov_29.475859 | CP009253.1 | 81.425 | 4393 | 739 | 57 | 15478 | 19851 | 510438 | 514772 | 0.0 | 3520 |
NODE_56_length_19821_cov_29.475859 | CP009253.1 | 75.301 | 4324 | 914 | 121 | 948 | 5226 | 496111 | 500325 | 0.0 | 1927 |