Предсказание программой Prodigal выполнено для плазмиды CP014757, принадлежащей бактерии Klebsiella pneumoniae. Её длина — 54,064 п.н., она содержит 126 генa и 63 белок-кодирующих генов. Были запущены следующие команды:
Выполним сравнение аннотации с предсказанием с помощью Excel (ссылка на проект). После вставки данных о начале, конце и направлении из обоих источников, для каждой CDS из gff-файла найдем с помощью VLOOKUP конец последовательности из Prodigal с таким же началом (аналогично начало с таким же концом). Добавим столбцы, принимающие значение TRUE, если начало найдено, FALSE иначе (аналогично для концов). Далее если найден конец последовательности из Prodigal с таким же началом, и он совпадает с концом из gff, то последовательность полностью предсказана верно. Далее перейдем от начала и конца последовательности к началу и концу белка: C-конец соответствует началу последовательности на прямой цепи или концу на обратной. Далее посчитаем с помощью COUNTIF количество генов, для которых определены правильно оба конца, только один конец или ничего.
Опишем отдельно несколько случаев несовпадения предсказания с аннотацией: