Предсказание генов прокариот с помощью Prodigal

Вначале была получена последовательность плазмиды LT222314 из базы embl в формате fasta и gff с помощью команд:

seqret embl:LT222314 LT222314.gff -feature

seqret embl:LT222314 LT222314.fasta

Флажок -feature был поставлен для сохранения таблицы особенности в файле gff

Также была получена информация о предполагаемых генах плазмиды с помощью Prodigal

prodigal -f gff -i LT222314.fasta -o LT222314_p.gff

Формат gff был взят для удобства сравнения с таблицей особенностей из EMBL

Таблица 1. Результат сравнения предсказания генов EMBL и Prodigal

Тип Количество Процент в EMBL Процент в Prodigal
Одинаковы в обеих таблицах 68 88.3% 82.9%
Отличается N-конец 8 10.4% 9.8%
Отличается С-конец 0 0.0% 0.0%
Отличаются оба конца в EMBL 1 1.3% ---
Отличаются оба конца в Prodigal 6 --- 7.3%

Сравнение производилось с помощью скрипта на Python, которому на вход подается файл EMBL и файл с данными Prodigal (именно в таком порядке), на выходе две таблицы, где построчно выводятся количество и процент генов по типам: с различием в N-конце, С-конце, с полным сходством и отсутствием сходства.

Для исследования случаев несовпадения N-концов были взяты следующие фрагменты плазмиды: 22883(23084)-23419 и 43116(43167)-44093, в обоих случаях короткий вариант был найден Prodigal. Каждый фрагмент был протранслирован в аминокислотную последовательность c помощью ExPASy translate tool.

Фрагмент 22883(23084)-23419, frame 3

X X X X X X X X X X X X X X X X X X X X X X X X X X X Met D S G A C A E K P D T S N R L H P G Q D I A A G A D A S G P S C Y D P N R S A A F K R R G R G A L A G R K C S G V F C F P A R P A A Met I R I D S I W L A T E P Met D Met R A G T E T A L A R V V A V F G A A K P H C A Y L F A N R R A N R Met K V L V H D G V G I W L A A R R L N Q G R F F W P G V R H G S E V E L D A E Q L Q A L V L G L P W Q R V G S G G A I T V L Stop

Курсивом выделена различная смысловая часть, а жирным - общая. Как можно заметить, EMBL включил в состав гена еще один фрагмент плазмиды, трансляция которого начинается с метионина, то есть, старт-кодона. Prodigal же этот фрагмент проигнорировал.

Фрагмент 43116(43167)-44093, frame 3

X X X X X X X X X X X X X X X X X X X X X X X X X X X V A S I D E A F L D L T G Met P G N Met T E L G R S I R S K V H R C T G I P V G V G I A P T K T L A K L A N H T A K R L Q A H T G G V V D I C D P V K R D W V L R N T S V G E V W G I G R K Met K A H L E G Met R I L S A K D L A Met A D P W Met L R K T F S V V I E K T A R E L A G T A C L E L D E V E P P R Q E I C C S R Met F G K R L T E L G P I K E A V A T Y Met Met R A S E K L R A Q G S V C K K I R V S I R T G Met F N P D E A K Y A N G A L V Q L P Y P T N D V R V Met T Q Y A T E A V S R I F R P G F R Y S K A E V L L Met D I C Q P G E F T D D L F T T N Q P V S S D R L Met A A L D Met I N G K W G R G T L R T G S V P A T P D W G Met R R E L Met S Q S Y T T R L D Q L W V V K A K Stop

Здесь мы видим аналогичную ситуацию - EMBL предлагает включить дополнительный фрагмент в составе транслируемой области.

Судя по всему, в силу большего количества информации, включая данные исследований, EMBL может уточнять расположение генов, которое получается в результате первичной обработки последовательности алгоритмом. Зоны же перед транслируемой областью, предположительно, являются регуляторными.


© Котюргин Александр, 2015