seqret -sequence embl:CP013715 -outseq gff::a.gff -featureбыл скачан файл a.gff, содержащий плазмиду CP013715 в формате gff. При этом в итоговом файле a.gff были сохранены особенности (features) с помощью квалификатора -features, так как они понадобятся для дальнейшей работы.
seqret -sequence embl:CP013715 -outseq fasta::a.fasta -featureбыл скачан файл a.fasta, содержащий плазмиду CP013715 в формате fasta.
prodigal -i cp015748.fasta -o prodigal.fasta -f scoбыло получено предсказание генов программой prodigal для данной плазмиды. При этом был выбран (-f sco) минималистичный формат sco для записи результата: prodigal.fasta. Из обоих файлов координаты генов (начало, конец, ориентация, разделенные символом '_') были записаны в отдельные файлы с помощью команд:
grep CDS a.gff | cut -f 4,5,7 --output-delimiter='_'> a.out grep '>' prodigal.fasta | cut -f 2,3,4 -d '_' > prodigal.outПолученные файлы с координатами: prodigal.out, a.out.
Число генов, которые аннотированы в БД GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же | 47 |
Процент генов, которые аннотированы в БД GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же | 58,02% |
Число генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal | 7 |
Процент генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal | 8,64% |
Число генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal | 21 |
Процент генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal | 25,93% |
Число генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal | 6 |
Процент генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal | 7,41% |