Предсказание генов прокариот.

Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды:

В этом задании необходимо сравненить предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды, с моем случае для LN997845.
Даннный инентификатор принадлежит последовательности Streptomyces reticuli genome assembly TUE45, plasmid : IV. Длина плазмиды - 76089 bp. На этой плазмиде всего 75 генов, CDS тоже 75, т.е. белок кодирующих генов - 75.

map

Рисунок 1. Streptomyces reticuli.

Стрептомицеты инетерсны тем, что продуцируют целлюлазу, ассоциированную с мицелием.

С помощью следующих команд были получены fasta и gff форматы пластиды:
1. seqret embl:LN997845 plas.fasta
2. seqret -feature embl:LN997845 plas.gff

Тэг -feature добавил особенностей в файл. Полученные файлы: plas.fasta, plas.gff.

Затем, координаты начала и конца и направление цепи были извлечены из gff следующей командой:
grep CDS plas.gff | awk '{print $4 " " $5 " " $7}' > gff.out

gff.out

Потом была запущена программа prodigal:
prodigal -i plas.fasta -o plas.out -s all.out -f sco

-i указывает входной файл, -o выходной файл, -s выдает все находки, а -f задает формат вывода. plas.out, all.out

Затем, с помощью скрипта на питоне, был проведен анализ полученных данных:

Таблица 1. Анализ полученных данных:

Число совпадающих генов 51(66.2%)
Число генов, совпадающих по N-концу 0
Число генов, совпадающих по С-концу 6(7.8%)
Число генов, вообще не совпадающих по концам 20(26%)

Из файла all.out:

15006 15320 - 53.25 43.50 9.75 GTG AGGAG 5-10bp 14.36 -2.97 -1.64 0.689 (Genbank)
15006 15356 - 47.42 59.56 -12.14 ATG None None -9.60 -6.13 3.59 0.684 (Prodigal)

Для гена с с-концом 15006 можно сказать, что наверняка был выбран вариант с ATG из-за его большей распространенности, хотя у первого score больше.

4958 6022 - 163.64 165.39 -1.75 GTG GGA/GAG/AGG 5-10bp 0.92 -1.04 -1.64 0.707 (Genbank)
4958 5959 - 177.93 178.15 -0.22 GTG GGxGG 11-12bp 3.91 -2.50 -1.64 0.711 (Prodigal)
Здесь видно, что "правильный вариант по genbank" сильно хуже по кодоновому составу. Это ген Murein DD-endopeptidase MepH precursor. Аномалии с кодоновым составом могут быть из-за перекрытия областей двух регионов, т.е. как бы два белка (но кодоновый состав из-за этого не должен стать менее похожим в конце на ген). Там только последние 12 нуклеотидов принадлежат одному региону