Dzha_prct

Предсказание генов прокариот

Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды.

Исходная плазмида принадлежит грам-отрицательной аэробной бактерии Pandoraea oxalativorans.

Описание плазмиды: размер — 75108 bp ; число генов: 82 (из них белок-кодирующих: 81, тРНК-кодирующих: 1).

Информация о последовательности плазмиды и ее особенностях (features) была извлечены в два файла — [fasta] и [gff] соответственно.

	seqret embl:CP011520 -feature CP011520.fasta
Выполнение приведённой команды создаёт не только указанный CP011520.fasta файл, содержащий последовательность, но и одноимённый CP015440.gff файл с особенностями, что связано с указанием параметра -feature.

Затем с помощью Prodigal были предсказаны гены в данной плазмиде.

prodigal -i cp015748.fasta -f sco -o pred.sco 

Был выбран (-f sco) минималистичный формат sco для записи результата: prodigal.fasta.

Обработка данных производилась с помощью python-скрипта [py]. На вход данный скрипт получает файл [gff] и файл [sco]. Далее для каждого файла создаются списки координат генов, а затем значения элементов списков сравниваются, на основе сравнения выдается результат. (табл.1)

Табл.1.Результаты предсказания
ГеныЧислоПроцент от аннотированных
одинаковые 4150.0%
совпадает N 44.9%
совпадает C 2935.4%
не предсказаны 89.8%
неверно предсказаны3230.2%(от всех предсказанных)

Как видно из таблицы, правильно предсказана половина генов; вообще не предсказана треть всех генов. Треть предсказанных белков имеет неверно определенный N-конец, то есть начало трансляции, а вот белков с неверно определенным С-концом довольно мало. Это может быть связано с тем, что Prodigal учитывает не все возможные старт-кодоны. Трансляция и транскрипция зависят от многих других факторов, поэтому данный кодон может вообще не попасть в РНК, либо оказаться внутри неё, но не влиять на трансляцию.

Было рассмотрено два конкретных случая с неправильно предсказанным С-концом. Коррдинаты таких генов были определены с помощью скрипта [py].

Первый ген имеет координаты 29917-30050 (-), он кодирует фермент транспозазу. Транспозаза — это фермент, связывающий одноцепочечную ДНК и встраивающий последнюю в геномную ДНК. Транспозоны класса 2 кодируют транспозазу, которая позволяет транспозонам быть вырезанным из геномной ДНК и встроенным в другие места.

Аннотированный ген оказался длиннее, чем предсказывалось. Как видно на рис. 1. и предсказанный и аннотированный ген начинаются с ATG. Согласно Таблице трансляции №11 (ее использование аннотировано) ATG (AUG) является наиболее распространенным стартовым кодоном.


align
Рис. 1. Изображение гена транспозазы в геномном браузере.

Второй ген имеет координаты 59852-60097(+), он оказался короче, чем было предсказано. Продукт данного гена - гипотетический белок. Здесь программа Prodigal посчитала началом гена наиболее распространенный кодон ATG, хотя на самом деле началом является GCG.


align
Рис. 2. Изображение второго гена в геномном браузере.