Вначале была получена последовательность плазмиды LT222314 из базы embl в формате fasta и gff с помощью команд:
seqret embl:LT222314 LT222314.gff -feature
seqret embl:LT222314 LT222314.fasta
Флажок -feature был поставлен для сохранения таблицы особенности в файле gff
Также была получена информация о предполагаемых генах плазмиды с помощью Prodigal
prodigal -f gff -i LT222314.fasta -o LT222314_p.gff
Формат gff был взят для удобства сравнения с таблицей особенностей из EMBL
Таблица 1. Результат сравнения предсказания генов EMBL и Prodigal
Тип | Количество | Процент в EMBL | Процент в Prodigal |
Одинаковы в обеих таблицах | 68 | 88.3% | 82.9% |
Отличается N-конец | 8 | 10.4% | 9.8% |
Отличается С-конец | 0 | 0.0% | 0.0% |
Отличаются оба конца в EMBL | 1 | 1.3% | --- |
Отличаются оба конца в Prodigal | 6 | --- | 7.3% |
Сравнение производилось с помощью скрипта на Python, которому на вход подается файл EMBL и файл с данными Prodigal (именно в таком порядке), на выходе две таблицы, где построчно выводятся количество и процент генов по типам: с различием в N-конце, С-конце, с полным сходством и отсутствием сходства.
Для исследования случаев несовпадения N-концов были взяты следующие фрагменты плазмиды: 22883(23084)-23419 и 43116(43167)-44093, в обоих случаях короткий вариант был найден Prodigal. Каждый фрагмент был протранслирован в аминокислотную последовательность c помощью ExPASy translate tool.
Фрагмент 22883(23084)-23419, frame 3
X X X X X X X X X X X X X X X X X X X X X X X X X X X Met D S G A C A E K P D T S N R L H P G Q D I A A G A D A S G P S C Y D P N R S A A F K R R G R G A L A G R K C S G V F C F P A R P A A Met I R I D S I W L A T E P Met D Met R A G T E T A L A R V V A V F G A A K P H C A Y L F A N R R A N R Met K V L V H D G V G I W L A A R R L N Q G R F F W P G V R H G S E V E L D A E Q L Q A L V L G L P W Q R V G S G G A I T V L Stop
Курсивом выделена различная смысловая часть, а жирным - общая. Как можно заметить, EMBL включил в состав гена еще один фрагмент плазмиды, трансляция которого начинается с метионина, то есть, старт-кодона. Prodigal же этот фрагмент проигнорировал.
Фрагмент 43116(43167)-44093, frame 3
X X X X X X X X X X X X X X X X X X X X X X X X X X X V A S I D E A F L D L T G Met P G N Met T E L G R S I R S K V H R C T G I P V G V G I A P T K T L A K L A N H T A K R L Q A H T G G V V D I C D P V K R D W V L R N T S V G E V W G I G R K Met K A H L E G Met R I L S A K D L A Met A D P W Met L R K T F S V V I E K T A R E L A G T A C L E L D E V E P P R Q E I C C S R Met F G K R L T E L G P I K E A V A T Y Met Met R A S E K L R A Q G S V C K K I R V S I R T G Met F N P D E A K Y A N G A L V Q L P Y P T N D V R V Met T Q Y A T E A V S R I F R P G F R Y S K A E V L L Met D I C Q P G E F T D D L F T T N Q P V S S D R L Met A A L D Met I N G K W G R G T L R T G S V P A T P D W G Met R R E L Met S Q S Y T T R L D Q L W V V K A K Stop
Здесь мы видим аналогичную ситуацию - EMBL предлагает включить дополнительный фрагмент в составе транслируемой области.
Судя по всему, в силу большего количества информации, включая данные исследований, EMBL может уточнять расположение генов, которое получается в результате первичной обработки последовательности алгоритмом. Зоны же перед транслируемой областью, предположительно, являются регуляторными.