Задание 1. Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды
Мне была выдана плазмида с идентификатором INSDC:
CP014236,
принадлежащая
Moraxella osloensis.
Moraxella osloensis является грамотрицательной оксидаза-положительной, аэробной бактерией внутри семейства Moraxellaceae в гамма-подразделение пурпурных бактерий.
Также М. osloensis является мутуалистическим симбионтом паразитических нематод Phasmarhabditis hermaphrodita.
(wiki)
Описание плазмиды:
° размер - 57463 bp;
° число генов - 63, из которых все белок-кодирующие.
Чтобы получить fasta-файл изучаемой плазмиды использовалась команда - "seqret embl:CP014236 -feature CP014236.fasta".
Файлы, которые были получены на выходе:
°
fasta-файл
°
gff-файл
Далее работа продолжилась в программе Prodigal, которая на вход получает fasta-файл, а на выходе даёт файл xxx.sco, содержаший координаты предсказанных генов.
Данную программу было необходимо запустить с командной строки Windows.
Использовалась команда - "prodigal.windows.exe -i CP014236.fasta -f sco -o pr8_prodigal.sco".
Разбор использованных параметров:
° "-i" - указывает на входной файл;
° "-o" - указывает на файл выхода;
° "-f" - устанавлевает формат файла выхода.
[ссылка на полученный файл]
Для обработки полученных данных был использован
скрипт.
На входе программа получает 2 файла: полученные ранее
CP014236.gff и
pr8_prodigal.sco.
Что получилось в итоге:
Использовалась команда в Far-manager - "python pr8_script.py CP0014236.gff pr8_prodigal.sco"
Причины несовпадения
Путем анализа данных было выяснено следующее:
° Annotated genes: 63
° Genes predicted with Prodigal: 62
Ген 1 - (1160..1750) В предсказании этого гена Prodigal дал координаты на 26 триплетов позже (78 нуклеотидов), неправильно предсказан C-конец.
Последовательность гена (коричневым), а также черным прямоугольником выделены три нуклеотида, которые были предсказаны как конец гена.
Ген 2 - (15252..15728).
В предсказании этого гена Prodigal дал координаты на 1 триплет раньше (3 нуклеотида), неправильно предсказан N-конец.
Последовательность гена (коричневым), а также красным прямоугольником выделены три нуклеотида, которые были предсказаны как конец гена.
Достаточно странно, что программа предсказала ген на 3 аминокислоты длиннее, чем на самом деле.
Возможно, это связано с тем, что произошло наложение другого гена со стороны N-конца.
(
wiki)