Предсказание генов прокариот

I

Выданная мне плазмида CP016441 размером 68520 пар оснований принадлежит бактерии Bordetella pseudohinzii. В плазмиде аннотированы 4229 генов, из которых белок кодируют 4130 (плюс 26 псевдогенов). Остальные гены кодируют РНК. Последовательность в форматах .gff и .fasta была скачана при помощи программы seqret:

  1. s.isaev@kodomo:~/term3/task11$ seqret embl:CP016441 CP016441.gff -feature
  2. s.isaev@kodomo:~/term3/task11$ seqret embl:CP016441 CP016441.fasta -feature
Параметр -feature необходим для корректного создания .gff-файла. На локальном компьютере для предсказания генов была использована программа Prodigal:
  1. sergey@Sergey:~/Bioinformatics/Pracs$ prodigal -f sco -i CP016441.fasta -o CP016441_2.sco
Параметр -f sco необходим для того, чтобы вывод программы был в формате sco. При помощи скрипта на языке Python 2 сравниваем предсказания программы Prodigal и аннотацию. Выход программы (для наглядности скрипт также рисует диаграмму):

N- and C-ends are same: 63.6363636364% (42);
Only N-end is same: 0.0% (0);
Only C-end is same: 30.303030303% (20);
No one end is same: 6.06060606061% (4).

   Same parts  N-end  C-end
0      Only C      7    924
1        Both   1198   1509
2      Only C   1599   1904
3        Both   2402   3100
4     Nothing   3537   3301
5      Only C   3640   4137
6      Only C   4486   4725
7        Both   4917   5183
8        Both   5200   5982
9        Both   6003   6659
10     Only C   7115   7825
11     Only C   8960   9208
12       Both   9843  10097
13       Both  10477  11805
14    Nothing  11854  12462
15       Both  12856  13503
16       Both  14099  13806
17       Both  15007  14327
18     Only C  15800  16177
19       Both  16188  16556
20       Both  16660  18627
21       Both  18692  19009
22       Both  19006  19404
23       Both  20072  19401
24    Nothing  20228  20641
25       Both  21478  21795
26       Both  21904  22134
27       Both  22138  22377
28    Nothing  22791  24230
29     Only C  24299  24751
..        ...    ...    ...
36     Only C  32732  33157
37       Both  33170  34138
38       Both  34123  35334
39     Only C  35591  37384
40       Both  37737  37468
41     Only C  38876  37734
42       Both  39763  39338
43     Only C  40363  39779
44       Both  41528  40404
45     Only C  42388  42921
46       Both  44303  42942
47       Both  46525  44306
48       Both  46770  46540
49       Both  48059  46767
50       Both  49021  48056
51       Both  50183  49005
52       Both  50584  50186
53       Both  50921  51319
54     Only C  53680  53369
55       Both  54789  54277
56     Only C  57018  54847
57       Both  58806  57586
58     Only C  61868  58803
59       Both  62612  61890
60       Both  63107  62670
61       Both  63667  63137
62       Both  64432  63677
63     Only C  65343  64435
64     Only C  66446  65754
65       Both  67540  66848

[66 rows x 3 columns]

Скрипт работает очевидным образом (достаточно взглянуть на код), для удобства реализации операций были использованы библиотеки numpy, pandas (для хранения информации в виде DataFrame), seaborn и matplotlib (для того, чтобы нарисовать график).

Несовпадения у аннотации и предсказаниями Prodigal вызваны в первую очередь тем, что при поиске ORF'ов были найдены различные стартовые кодоны (это может быть связано с тем, что поиск консенсуса Шайна-Дальгарно затруднён из-за его низкой силы). Так, это причина несовпадения следующих генов:

  1. Prodigal нашёл ген с координатами 1:924 (+), аннотирован же он как 7:924 (+) — если посмотреть на последовательность, то видно, что и 1:3, и 7:9 нуклеотиды — это ATG (старт-кодон).
  2. Ровно та же история и с геном, у которого Prodigal предсказал координаты 1620:1904 (+), а аннотирован он как 1599:1904 — здесь в обоих случаях первым кодоном является ATG.
Стоит обратить внимание, что нет ни одной ситуации, когда рамка считывания совпадает на N-конце и не совпадает на C-, что связано с большей однозначностью при определении закрытии рамки считывания — стоп-кодон однозначен, в отличие от старт-кодона, который также отвечает и за кодирование метионина.

© Исаев Сергей

2015 —