Был проведен анализ геномной последовательности и анализ кодирующих последовательностей Pseudomonas alkylphenoliсa. В результате чего стали известные стандартные данные о геноме Pseudomonas alkylphenoliсa: число и названия ДНК, составляющих геном; их длина и GC-состав; координата начала репликации (oriC) и координата терминации реплиции (ter). Были найдены частоты использования стоп-кодонов и отмечены свойства кодирующих последовательностей с редко-встречающимися стоп-кодонами, а также проанализированы последовательности, в которых стоп-кодон не занимает концевое положение. Работая с протеомом бактерии, были найдены длины белков, общее количество использований каждой аминокислоты в протеоме; были найдены частоты использования кодонов, кодирующих одну и ту же аминокислоту. Полученные результаты согласуются с имеющейся на данный момент информацией о геноме и протеоме Pseudomonas alkylphenoliсa.
Pseudomonas alkylphenoliсa - штамм анаэробных бактерий, представители которого впервые были найдены в почве, содержащей с1-с5 алкилфенолы. Несмотря на наличие названия Pseudomonas alkylphenolica, данный штамм до сих пор не имел четкой таксономической характеристики [1]. Но всё же проведенные исследования позволяют классифицировать эти бактерии как штамм нового вида - KL28T [1].
Pseudomonas alkylphenoliсa имеют один полярный жгутик, за счет чего достигают достигают длины в 3.1–3.5 μm . Их клетки дают отрицательный результат на каталазный и оксидазный тесты; аэробные , не ферментативные [1] . Существование в агрессивной среде - результат образования разных клеточных форм в зависимости от внешних условий. В частности на среде, содержащей пара алкил-фенолы, они формируют воздушные структуры за счет lap - катаболического генного кластера[2].
Такая устойчивость к алкилфенольной среде , позволила культивировать данный штамм с использованием пара-крезола и заметить его потенциал как в качестве объекта исследований индивидуального развития бактерий, так и как в качестве биофильтра [1].
В ходе работы с геномом Pseudomonas alkylphenoliсa:
Действия, выполненный в ходе работы с протеомом Pseudomonas alkylphenoliсa:
Геном Pseudomonas alkylphenoliсa состоит из одной хромосомы - Neo, которая содержит в себе 1 молекулу днк. Длина единственной хромосомы - 5 612 010 bp (base-pairs — пар оснований). Среднее GC содержание - 0.6118. Полученные данные соответствуют действительности [3].
GC содержание Pseudomonas alkylphenoliсa сопоставимо с GC содержанием Pseudomonas fluorescens SBW25 [4].
Так как в некоторых геномах прокариот на лидирующей цепи гуанина больше чем цитозина, а на запаздывающей цепи больше цитозина чем гуанина, то можно воспользоваться методом GC-skew, основанном на этом наблюдении, для того, чтобы определить координату начала репликации (oriC) и координату конца репликации (ter).
Формула для расчета cumulative gc-skew:
где G_cnt и C_cnt - соответственно количество гуанинов и цитозинов в рассматриваемом “окне” – произвольно выбранном диапазоне нуклеотидов. Окно продвигается по последовательности с произвольно выбранным “шагом”.
Таким образом координата oriC соответствует минимальному значению cumulative gc-skew – 134688, координата ter. соответствует максимальному значению cumulative gc-skew – 2946300.
старт-кодоны | краткое описание соответствующей кодирующей последовательности |
---|---|
ACG 1 | псевдоген |
ATA 10 | 1. белок из супер-семейства белков посредников. Участвует в синтезе гемолизина 2. 16s р-РНК метилтрансфераза 3.вставочный мембранный белок. 4.белок трансмембранного транспорта. 5. Белок, участвующий в разрушении пиримидиновых оснований. 6,7 внеклеточный белок, связывающий растворенные вещества. 8.Катализирует НАД-зависимое восстановление полуальдегида сукцинилглутамата в сукцинилглутамат. 9. белок супер-семейства метал-зависимых и метал не зависимых фосфогидролаз[5]. 10. Пеницилл-зависимый белок, участвует в формировании клеточной стенки, синтез пептидогликанов из промежуточных продуктов липидов. |
ATC 17 | |
ATG 4449 | |
ATT 3 | 1. фактор регуляции транскрипции. 2. фактор инициации трансляции IF-3 3. белок, содержащий домен неопределенной функции. |
CGC 1 | псевдоген |
CGT 1 | псевдоген |
CTA 1 | псевдоген |
CTC 2 | псевдоген |
CTG 21 | |
GAA 1 | псевдоген |
GGA 1 | псевдоген |
GGG 1 | псевдоген |
GTG 395 | |
TAC 1 | псевдоген |
Видно, что старт кодоны с наименьшей встречаемостью находятся в кодирующих последовательностях псевдогенов. Оставшиеся кодоны можно трактовать как синонимичные замены, которые не влияют на реализацию информации, или как способ регулирования процесса трансляции.
стоп-кодон | кол-во | другие кодоны | их количество | |
---|---|---|---|---|
TGA | 3105 | GTG, TCA, CCA, AGT, TTG, CAC, CCG, GCT, AAA, ACC, CTC, CCT | 1 | |
TAA | 1307 | AGC,CTG,GCC | 2 | |
TAG | 581 | ATG | 3 | |
другие | 21 | общее кол-во | 21 |
как было сказано ранее, среднее GС- содержание Pseudomonas alkylphenoliсa – 0.6118. В то же время TGA – самый часто-используемый стоп-кодон в геноме бактерии, и , согласно имеющимся данным, прослеживается прямая зависимость между высоким средним GC - содержанием и количеством TGA стоп-кодонов[6].
Последовательности, в которых стоп-кодон не занимал конечного положения.
Также были найдены 17 кодирующих последовательностей, в которых стоп-кодон не занимал конечного положения. Среди них лишь одна не являлась последовательностью псевдогена. Она кодирует N-субъединицу формиатдегидрогеназы, (функция которой состоит в том, чтобы катализировать окисление формиата до СО2). В ней TGA считывается не как стоп-кодон, а как кодон, отвечающий за синтез селеноцистеина, благодаря специфичной последовательности после него.[7]
а/к | кодоны | кол-во | сумма | ||
---|---|---|---|---|---|
Ala, A | GCT | 36 171 | min | 36 171 | 194 541 |
GCC | 59 877 | max | 59 877 | ||
GCA | 43 221 | ||||
GCG | 55 272 | ||||
Arg, R | CGT | 21 572 | min | 18 270 | 201 903 |
CGC | 52 658 | max | 52 658 | ||
CGA | 34 355 | ||||
CGG | 43 904 | ||||
AGA | 18 270 | ||||
AGG | 31 144 | ||||
Asn, N | AAT | 9 355 | min | 9 355 | 33 849 |
AAC | 24 494 | max | 24 494 | ||
Asp, D | GAT | 19 266 | min | 19 266 | 41 145 |
GAC | 21 879 | max | 21 879 | ||
Cys, C | TGT | 22 030 | min | 22 030 | 78 349 |
TGC | 56 319 | max | 56 319 | ||
Gln, Q | CAA | 23 459 | min | 23 459 | 53 661 |
CAG | 30 202 | max | 30 202 | ||
Glu, E | GAA | 18 951 | min | 15 350 | 34 301 |
GAG | 15 350 | max | 18 951 | ||
Gly, G | GGT | 25 024 | min | 16 439 | 111 954 |
GGC | 48 778 | max | 48 778 | ||
GGA | 16 439 | ||||
GGG | 21 713 | ||||
His, H | CAT | 17 197 | min | 17 197 | 38 737 |
CAC | 21 540 | max | 21 540 | ||
Ile, I | ATT | 10 505 | min | 5 427 | 41 638 |
ATC | 25 706 | max | 25 706 | ||
ATA | 5 427 | ||||
Leu, L | CTT | 14 242 | min | 4 976 | 109 732 |
CTC | 14 548 | max | 46 852 | ||
CTA | 8 299 | ||||
CTG | 46 852 | ||||
TTA | 4 976 | ||||
TTG | 20 815 | ||||
Lys, K | AAA | 16 090 | min | 16 090 | 45 360 |
AAG | 29 270 | max | 29 270 | ||
Met, M | ATG | 26 550 | 26550 | ||
Phe, F | TTT | 10 579 | min | 10 579 | 31 324 |
TTC | 20 745 | max | 20 745 | ||
Pro, P | CCT | 32 828 | min | 31 620 | 157 100 |
CCC | 31 620 | max | 55 177 | ||
CCA | 37 475 | ||||
CCG | 55 177 | ||||
Ser, S | TCT | 15 525 | min | 14 541 | 173 361 |
TCC | 20 554 | max | 48 328 | ||
TCA | 33 626 | ||||
TCG | 48 328 | ||||
AGT | 14 541 | ||||
AGC | 40 787 | ||||
Thr, T | ACT | 16 754 | min | 16 754 | 110 942 |
ACC | 40 196 | max | 40 196 | ||
ACA | 24 030 | ||||
ACG | 29 962 | ||||
Trp, W | TGG | 56 485 | 56485 | ||
Tyr, Y | TAT | 7 159 | min | 7 159 | 20 961 |
TAC | 13 802 | max | 13 802 | ||
Val, V | GTT | 18 490 | min | 11 097 | 83 111 |
GTC | 22 248 | max | 31 276 | ||
GTA | 11 097 | ||||
GTG | 31 276 |
Из таблицы видно, что самый часто-используемый код- он – GCC (кодирует аланин) – встречается 59877 раза, а самый редко-используемый – TTA (кодирует лейцин ) — 4976 раз. Стоит отметить что, такое распределение кодонов можно связать с высоким средним GC-содержанием [9].
И, если говорить про количество кодонов имеющих вид “*GC” или “*CG” ( где ‘*’ - это любой из нуклеотидов), то их в геноме Pseudomonas alkylphenoliсa значительно больше, чем кодонов оканчивающихся на “А” и “T”, и это также можно связать с относительно высоким средним GC содержанием:
*GC | сумма | *GC | сумма | *GC+*CG | ||
---|---|---|---|---|---|---|
GCC | 59 877 | 313 691 | GCG | 55272 | 285301 | 598 992 |
GCG | 55 272 | CGC | 52658 | |||
CGC | 52 658 | CGG | 43904 | |||
TGC | 56 319 | CCG | 55177 | |||
GGC | 48 778 | TCG | 48328 | |||
AGC | 40 787 | ACG | 29962 | |||
*AT | сумма | *TA | сумма | *AT+*TA | ||
AAT | 9 355 | 58 404 | ATA | 5427 | 50760 | 109 164 |
GAT | 19 266 | CTA | 8299 | |||
CAT | 17 197 | TTA | 4976 | |||
ATA | 5 427 | TAT | 7159 | |||
TAT | 7 159 | TAC | 13802 | |||
GTA | 11097 |
В протеоме мало аминокиcлот с ароматическим радикалом (F, Y, W) . Это может быть одной из причин, по которой Pseudomonas alkylphenoliсa выживает на алкилфенольной среде. А малое количество цистеина связано с тем, что свободный цистеин может быть токсичен для клеток прокариот и его синтез находится под жестким контролем [10].
Таким образом, рассматривая количественное соотношение аминокислот в протеоме, можно сделать предположения о характеристиках организма.
А/К | кол-во |
---|---|
A, Ala | 185 381 |
R, Arg | 106 749 |
N, Asn | 51 164 |
D, Asp | 88 261 |
C, Cys | 16 961 |
Q, Gln | 81 253 |
E, Glu | 94 520 |
G,Gly | 132 416 |
H, His | 37 584 |
I, Ile | 78 673 |
L, Leu | 200 338 |
K, Lys | 56 417 |
M, Met | 37 771 |
F, Phe | 60 211 |
P, Pro | 79 777 |
S, Ser | 98 209 |
T, Thr | 78 737 |
W, Trp | 24 229 |
Y, Tyr | 43 072 |
V, Val | 118 654 |
max (лейцин) | 200 338 |
min (цистеин) | 16 961 |
В протеоме мало аминокиcлот с ароматическим радикалом (F, Y, W) . Это может быть одной из причин, по которой Pseudomonas alkylphenoliсa выживает на алкилфенольной среде. А малое количество цистеина связано с тем, что свободный цистеин может быть токсичен для клеток прокариот и его синтез находится под жестким контролем [10].
Таким образом, рассматривая количественное соотношение аминокислот в протеоме, можно сделать предположения о характеристиках организма.
В обзоре были рассмотрены некоторые свойства генома и протеома Pseudomonas alkylphenoliсa. Говоря про геном, стоит отметить, что большинство рассмотренных свойств зависели от GC-содержания и принципа случайного распределения кодонов.
Сравнение длины белков, вычисление встречаемости кодонов, кодирующих 1 аминокислоту, и подсчет количества соответствующих аминокислот дали краткие сведения о протеоме Pseudomonas alkylphenoliсa.
Полученные результаты соотносятся с имеющейся на данный момент информацией об особенностях генома и протеома Pseudomonas alkylphenoliсa.