seqret -sequence embl:CP000627 -outseq gff::v.gff -featureбыл скачан файл v.gff, содержащий плазмиду CP000627 в формате gff. При этом в итоговом файле a.gff были сохранены особенности (features) с помощью квалификатора -features, так как они понадобятся для дальнейшей работы. Затем с помощью команды
seqret -sequence embl:CP000627 -outseq fasta::v.fasta -featureбыл скачан файл v.fasta, содержащий плазмиду CP000627 в формате fasta.
prodigal.windows.exe -i v.fasta -o prodigal.fasta -f scoбыло получено предсказание генов программой prodigal для данной плазмиды. При этом был выбран (-f sco) минималистичный формат sco для записи результата: prodigal.fasta. Из обоих файлов координаты генов (начало, конец, ориентация, разделенные символом '_') были записаны в отдельные файлы с помощью команд:
grep CDS v.gff | cut -f 4,5,7 --output-delimiter='_'> v.out grep '>' prodigal.fasta | cut -f 2,3,4 -d '_' > prodigal.outПолученные файлы с координатами: prodigal.out, v.out. В записи Genbank записан 2744 ген, программа Prodigal предсказала 2694 гена. 4. Далее был создан скрипт a.py, с помощью которого были оценены количественно следующие показатели:
prodigal.windows.exe -i ecoli.fasta -o prodigal_ecoli.fasta -f scoбыло получено предсказание генов программой prodigal для данной плазмиды. При этом был выбран (-f sco) минималистичный формат sco для записи результата: prodigal_ecoli.fasta. Из обоих файлов координаты генов (начало, конец, ориентация, разделенные символом '_') были записаны в отдельные файлы с помощью команд:
grep CDS ecoli.gff3 | cut -f 4,5,7 --output-delimiter='_'> ecoli.out grep '>' prodigal_ecoli.fasta | cut -f 2,3,4 -d '_' > prodigal_ecoli.outПолученные файлы с координатами: prodigal_ecoli.out, ecoli.out. В записи Genbank записан 2744 ген, программа Prodigal предсказала 2694 гена. 4. Далее был создан скрипт b.py, с помощью которого были оценены количественно следующие показатели:
Организм | Число генов, которые аннотированы в БД GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же | Процент генов, которые аннотированы в БД GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же | Число генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal | Процент генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal | Число генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal | Процент генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal | Число генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal | Процент генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal |
Vibrio cholerae | 926 | 33,31% | 400 | 14,39% | 427 | 15,36% | 1027 | 36,94% |
E. coli | 1868 | 36,82% | 241 | 4,75% | 926 | 18,25% | 2038 | 40,17% |