На главную

Предсказание генов прокариот

Предсказание программой Prodigal выполнено для плазмиды CP014757, принадлежащей бактерии Klebsiella pneumoniae. Её длина — 54,064 п.н., она содержит 126 генa и 63 белок-кодирующих генов. Были запущены следующие команды:

Выполним сравнение аннотации с предсказанием с помощью Excel (ссылка на проект). После вставки данных о начале, конце и направлении из обоих источников, для каждой CDS из gff-файла найдем с помощью VLOOKUP конец последовательности из Prodigal с таким же началом (аналогично начало с таким же концом). Добавим столбцы, принимающие значение TRUE, если начало найдено, FALSE иначе (аналогично для концов). Далее если найден конец последовательности из Prodigal с таким же началом, и он совпадает с концом из gff, то последовательность полностью предсказана верно. Далее перейдем от начала и конца последовательности к началу и концу белка: C-конец соответствует началу последовательности на прямой цепи или концу на обратной. Далее посчитаем с помощью COUNTIF количество генов, для которых определены правильно оба конца, только один конец или ничего.

Круговая диаграмма качества предсказания генов

Опишем отдельно несколько случаев несовпадения предсказания с аннотацией:

  1. Аннотация: 6968..7900, обратная цепь
    Предсказание: 6968..7999, обратная цепь
    Изображение:
    Комментарий: из двух вложенных ORF (при трансляции -1) программа посчитала наиболее вероятной наиболее длинную, в то время как геном является более короткая
  2. Аннотация:13096..13524, прямая цепь
    Предсказание: 13087..13524
    Изображение:
    Комментарий: согласно аннотации, участок является псевдогеном, и аннотированная последовательность не начинается со старт-кодона (т.е. вообще не является ORF); это приводит к низкому качеству предсказания

  3. © Посицельская Екатерина, 2015