q Предсказание генов прокариот

Предсказание генов прокариот

Задание 1. Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды


Мне была выдана плазмида с идентификатором INSDC: CP014236, принадлежащая Moraxella osloensis.

Moraxella osloensis является грамотрицательной оксидаза-положительной, аэробной бактерией внутри семейства Moraxellaceae в гамма-подразделение пурпурных бактерий. Также М. osloensis является мутуалистическим симбионтом паразитических нематод Phasmarhabditis hermaphrodita. (wiki)


Описание плазмиды:
° размер - 57463 bp;
° число генов - 63, из которых все белок-кодирующие.

Чтобы получить fasta-файл изучаемой плазмиды использовалась команда - "seqret embl:CP014236 -feature CP014236.fasta".
Файлы, которые были получены на выходе:
° fasta-файл
° gff-файл

Далее работа продолжилась в программе Prodigal, которая на вход получает fasta-файл, а на выходе даёт файл xxx.sco, содержаший координаты предсказанных генов.

Данную программу было необходимо запустить с командной строки Windows.
Использовалась команда - "prodigal.windows.exe -i CP014236.fasta -f sco -o pr8_prodigal.sco".
Разбор использованных параметров:
° "-i" - указывает на входной файл;
° "-o" - указывает на файл выхода;
° "-f" - устанавлевает формат файла выхода.
[ссылка на полученный файл]

Для обработки полученных данных был использован скрипт.
На входе программа получает 2 файла: полученные ранее CP014236.gff и pr8_prodigal.sco.
Что получилось в итоге:


Использовалась команда в Far-manager - "python pr8_script.py CP0014236.gff pr8_prodigal.sco"


Таблица значений


Причины несовпадения
Путем анализа данных было выяснено следующее:
° Annotated genes: 63
° Genes predicted with Prodigal: 62

Ген 1 - (1160..1750)
В предсказании этого гена Prodigal дал координаты на 26 триплетов позже (78 нуклеотидов), неправильно предсказан C-конец.
Последовательность гена (коричневым), а также черным прямоугольником выделены три нуклеотида, которые были предсказаны как конец гена.



Ген 2 - (15252..15728).
В предсказании этого гена Prodigal дал координаты на 1 триплет раньше (3 нуклеотида), неправильно предсказан N-конец.

Последовательность гена (коричневым), а также красным прямоугольником выделены три нуклеотида, которые были предсказаны как конец гена.

Достаточно странно, что программа предсказала ген на 3 аминокислоты длиннее, чем на самом деле.
Возможно, это связано с тем, что произошло наложение другого гена со стороны N-конца.

(wiki)