Dzha_prct
Исходная плазмида принадлежит грам-отрицательной аэробной бактерии Pandoraea oxalativorans.
Описание плазмиды: размер — 75108 bp ; число генов: 82 (из них белок-кодирующих: 81, тРНК-кодирующих: 1).
Информация о последовательности плазмиды и ее особенностях (features) была извлечены в два файла — [fasta] и [gff] соответственно.
seqret embl:CP011520 -feature CP011520.fastaВыполнение приведённой команды создаёт не только указанный CP011520.fasta файл, содержащий последовательность, но и одноимённый CP015440.gff файл с особенностями, что связано с указанием параметра -feature.
Затем с помощью Prodigal были предсказаны гены в данной плазмиде.
prodigal -i cp015748.fasta -f sco -o pred.sco
Был выбран (-f sco) минималистичный формат sco для записи результата: prodigal.fasta.
Обработка данных производилась с помощью python-скрипта [py].
На вход данный скрипт получает файл [gff] и файл [sco].
Далее для каждого файла создаются списки координат генов, а затем значения элементов списков сравниваются, на основе сравнения выдается результат. (табл.1)
Гены | Число | Процент от аннотированных |
одинаковые | 41 | 50.0% |
совпадает N | 4 | 4.9% |
совпадает C | 29 | 35.4% |
не предсказаны | 8 | 9.8% |
неверно предсказаны | 32 | 30.2%(от всех предсказанных) |
Как видно из таблицы, правильно предсказана половина генов; вообще не предсказана треть всех генов. Треть предсказанных белков имеет неверно определенный N-конец, то есть начало трансляции, а вот белков с неверно определенным С-концом довольно мало. Это может быть связано с тем, что Prodigal учитывает не все возможные старт-кодоны. Трансляция и транскрипция зависят от многих других факторов, поэтому данный кодон может вообще не попасть в РНК, либо оказаться внутри неё, но не влиять на трансляцию.
Было рассмотрено два конкретных случая с неправильно предсказанным С-концом. Коррдинаты таких генов были определены с помощью скрипта [py].
Первый ген имеет координаты 29917-30050 (-), он кодирует фермент транспозазу. Транспозаза — это фермент, связывающий одноцепочечную ДНК и встраивающий последнюю в геномную ДНК. Транспозоны класса 2 кодируют транспозазу, которая позволяет транспозонам быть вырезанным из геномной ДНК и встроенным в другие места.
Аннотированный ген оказался длиннее, чем предсказывалось. Как видно на рис. 1. и предсказанный и аннотированный ген начинаются с ATG. Согласно Таблице трансляции №11 (ее использование аннотировано) ATG (AUG) является наиболее распространенным стартовым кодоном.
Второй ген имеет координаты 59852-60097(+), он оказался короче, чем было предсказано. Продукт данного гена - гипотетический белок. Здесь программа Prodigal посчитала началом гена наиболее распространенный кодон ATG, хотя на самом деле началом является GCG.