Краткий обзор

Анализ генома и протеома Pseudomonas alkylphenoliсa

Е.С. Песковацкова1*

1Факультет биоинженерии и биоинформатики, Московский государственный университет им. Ломоносова, Россия, Москва

СОДЕРЖАНИЕ

Был проведен анализ геномной последовательности и анализ кодирующих последовательностей Pseudomonas alkylphenoliсa. В результате чего стали известные стандартные данные о геноме Pseudomonas alkylphenoliсa: число и названия ДНК, составляющих геном; их длина и GC-состав; координата начала репликации (oriC) и координата терминации реплиции (ter). Были найдены частоты использования стоп-кодонов и отмечены свойства кодирующих последовательностей с редко-встречающимися стоп-кодонами, а также проанализированы последовательности, в которых стоп-кодон не занимает концевое положение. Работая с протеомом бактерии, были найдены длины белков, общее количество использований каждой аминокислоты в протеоме; были найдены частоты использования кодонов, кодирующих одну и ту же аминокислоту. Полученные результаты согласуются с имеющейся на данный момент информацией о геноме и протеоме Pseudomonas alkylphenoliсa.

1 ВВЕДЕНИЕ

Pseudomonas alkylphenoliсa - штамм анаэробных бактерий, представители которого впервые были найдены в почве, содержащей с1-с5 алкилфенолы. Несмотря на наличие названия Pseudomonas alkylphenolica, данный штамм до сих пор не имел четкой таксономической характеристики [1]. Но всё же проведенные исследования позволяют классифицировать эти бактерии как штамм нового вида - KL28T [1].

Pseudomonas alkylphenoliсa имеют один полярный жгутик, за счет чего достигают достигают длины в 3.1–3.5 μm . Их клетки дают отрицательный результат на каталазный и оксидазный тесты; аэробные , не ферментативные [1] . Существование в агрессивной среде - результат образования разных клеточных форм в зависимости от внешних условий. В частности на среде, содержащей пара алкил-фенолы, они формируют воздушные структуры за счет lap - катаболического генного кластера[2].

Такая устойчивость к алкилфенольной среде , позволила культивировать данный штамм с использованием пара-крезола и заметить его потенциал как в качестве объекта исследований индивидуального развития бактерий, так и как в качестве биофильтра [1].

2 MЕТОДЫ

В ходе анализа шла работа с файлами, содержащими информацию о геноме, кодирующих последовательностях (cds) или протеоме Pseudomonas alkylphenoliсa. В основном использовались методы программирования на Python, возможности сервиса Google-sheets (для создания электронных таблиц и гистограмм).

В ходе работы с геномом Pseudomonas alkylphenoliсa:

  1. Стало известно число и название днк, составляющих геном благодаря файлу с геномной последовательностью (файл 1).
  2. Длина днк и гц-состав были подсчитаны - благодаря написанным программам (pr.1 и pr.2 соответственно )
  3. Координата начала репликации (oriC) и координата терминации реплиции (ter) (см. гр. 1) были найдены с помощью онлайн-сервиса для вычисления GC-skew на основе данных файла с геномной последовательностью (файл 1)
  4. Для определения частоты использования определенных старт-кодонов (таб 1.) была написана программа (pr. 3). Также использовался файл с cds (файл 2)
  5. Была написана программа (pr. 4) для подсчета встречаемости стоп-кодонов в cds – результат отражен в таб.2. Также, с помощью (pr. 5) найдены кодирующие последовательности, в которых стоп-кодон не занимал концевое положение.

  6. Действия, выполненный в ходе работы с протеомом Pseudomonas alkylphenoliсa:


  7. с помощью функций Google-Sheets, на основе таблицы особенностей генома (таб.0) была построена гистограмма (гист. 1), отражающая распределения длин белков бактерии.
  8. На основе cds с помощью написанной программы (pr. 6) была также составлена таблица использования кодонов. кодирующих одну и ту же аминокислоту (далее - АК))- (таб.3) и (таб. 4)
  9. По данным файла с протеомом бактерии (файл 3) с помощью написанной программы (pr.7) было выяснено количественное соотношение АК в протеоме Pseudomonas alkylphenoliсa.

3 РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЯ

3.1 Стандартные данные о геноме:

Геном Pseudomonas alkylphenoliсa состоит из одной хромосомы - Neo, которая содержит в себе 1 молекулу днк. Длина единственной хромосомы - 5 612 010 bp (base-pairs — пар оснований). Среднее GC содержание - 0.6118. Полученные данные соответствуют действительности [3].

GC содержание Pseudomonas alkylphenoliсa сопоставимо с GC содержанием Pseudomonas fluorescens SBW25 [4].

3.2 Координата начала репликации ( oriC) и координату терминации репликации (ter.)

график. 1. GC-skew Pseudomonas alkylphenoliсa

Так как в некоторых геномах прокариот на лидирующей цепи гуанина больше чем цитозина, а на запаздывающей цепи больше цитозина чем гуанина, то можно воспользоваться методом GC-skew, основанном на этом наблюдении, для того, чтобы определить координату начала репликации (oriC) и координату конца репликации (ter).

Формула для расчета cumulative gc-skew:

GC_skew = (G_cnt - C_cnt)/(G_cnt + C_cnt)

формула 1.

где G_cnt и C_cnt - соответственно количество гуанинов и цитозинов в рассматриваемом “окне” – произвольно выбранном диапазоне нуклеотидов. Окно продвигается по последовательности с произвольно выбранным “шагом”.

Таким образом координата oriC соответствует минимальному значению cumulative gc-skew – 134688, координата ter. соответствует максимальному значению cumulative gc-skew – 2946300.

3.3. Частота использования определенных старт кодонов.

старт-кодоны краткое описание соответствующей кодирующей последовательности
ACG 1 псевдоген
ATA 10 1. белок из супер-семейства белков посредников. Участвует в синтезе гемолизина 2. 16s р-РНК метилтрансфераза 3.вставочный мембранный белок. 4.белок трансмембранного транспорта. 5. Белок, участвующий в разрушении пиримидиновых оснований. 6,7 внеклеточный белок, связывающий растворенные вещества. 8.Катализирует НАД-зависимое восстановление полуальдегида сукцинилглутамата в сукцинилглутамат. 9. белок супер-семейства метал-зависимых и метал не зависимых фосфогидролаз[5]. 10. Пеницилл-зависимый белок, участвует в формировании клеточной стенки, синтез пептидогликанов из промежуточных продуктов липидов.
ATC 17
ATG 4449
ATT 3 1. фактор регуляции транскрипции. 2. фактор инициации трансляции IF-3 3. белок, содержащий домен неопределенной функции.
CGC 1 псевдоген
CGT 1 псевдоген
CTA 1 псевдоген
CTC 2 псевдоген
CTG 21
GAA 1 псевдоген
GGA 1 псевдоген
GGG 1 псевдоген
GTG 395
TAC 1 псевдоген
таб. 1. частота использования старт-кодонов

Видно, что старт кодоны с наименьшей встречаемостью находятся в кодирующих последовательностях псевдогенов. Оставшиеся кодоны можно трактовать как синонимичные замены, которые не влияют на реализацию информации, или как способ регулирования процесса трансляции.

3.4. Частота использования стоп-кодонов.

стоп-кодон кол-во другие кодоны их количество
TGA 3105 GTG, TCA, CCA, AGT, TTG, CAC, CCG, GCT, AAA, ACC, CTC, CCT 1
TAA 1307 AGC,CTG,GCC 2
TAG 581 ATG 3
другие 21 общее кол-во 21
таб. 2. частота использования стоп-кодонов

как было сказано ранее, среднее GС- содержание Pseudomonas alkylphenoliсa – 0.6118. В то же время TGA – самый часто-используемый стоп-кодон в геноме бактерии, и , согласно имеющимся данным, прослеживается прямая зависимость между высоким средним GC - содержанием и количеством TGA стоп-кодонов[6].

Последовательности, в которых стоп-кодон не занимал конечного положения.

Также были найдены 17 кодирующих последовательностей, в которых стоп-кодон не занимал конечного положения. Среди них лишь одна не являлась последовательностью псевдогена. Она кодирует N-субъединицу формиатдегидрогеназы, (функция которой состоит в том, чтобы катализировать окисление формиата до СО2). В ней TGA считывается не как стоп-кодон, а как кодон, отвечающий за синтез селеноцистеина, благодаря специфичной последовательности после него.[7]

3.5. Распределение длин белков.

гист. 1.распределение длин белков.

В среднем белки Pseudomonas alkylphenoliсa имеют длину в 251 аминокислотный остаток, что вполне типично для прокариот[8]. Что касается самых длинных белков, чья длина превышает 501 аминокислотный остаток, то большинство из них будут иметь отношение к клеточным процессам и клеточному метаболизму [8]. И , благодаря таблице особенностей генома Pseudomonas alkylphenoliсa, можно убедиться в этом. Таким образом, распределение длин белков организма может дать примерную оценку количеству белков выполняющих разные функции.

3.6. Частота использования кодонов, кодирующих одну и ту же аминокислоту.

а/к кодоны кол-во сумма 
Ala, A GCT 36 171 min 36 171 194 541
GCC 59 877 max 59 877
GCA 43 221
GCG 55 272
Arg, R CGT 21 572 min 18 270 201 903
CGC 52 658 max 52 658
CGA 34 355
CGG 43 904
AGA 18 270
AGG 31 144
Asn, N AAT 9 355 min 9 355 33 849
AAC 24 494 max 24 494
Asp, D GAT 19 266 min 19 266 41 145
GAC 21 879 max 21 879
Cys, C TGT 22 030 min 22 030 78 349
TGC 56 319 max 56 319
Gln, Q CAA 23 459 min 23 459 53 661
CAG 30 202 max 30 202
Glu, E GAA 18 951 min 15 350 34 301
GAG 15 350 max 18 951
Gly, G GGT 25 024 min 16 439 111 954
GGC 48 778 max 48 778
GGA 16 439
GGG 21 713
His, H CAT 17 197 min 17 197 38 737
CAC 21 540 max 21 540
Ile, I ATT 10 505 min 5 427 41 638
ATC 25 706 max 25 706
ATA 5 427
Leu, L CTT 14 242 min 4 976 109 732
CTC 14 548 max 46 852
CTA 8 299
CTG 46 852
TTA 4 976
TTG 20 815
Lys, K AAA 16 090 min 16 090 45 360
AAG 29 270 max 29 270
Met, M ATG 26 550 26550
Phe, F TTT 10 579 min 10 579 31 324
TTC 20 745 max 20 745
Pro, P CCT 32 828 min 31 620 157 100
CCC 31 620 max 55 177
CCA 37 475
CCG 55 177
Ser, S TCT 15 525 min 14 541 173 361
TCC 20 554 max 48 328
TCA 33 626
TCG 48 328
AGT 14 541
AGC 40 787
Thr, T ACT 16 754 min 16 754 110 942
ACC 40 196 max 40 196
ACA 24 030
ACG 29 962
Trp, W TGG 56 485 56485
Tyr, Y TAT 7 159 min 7 159 20 961
TAC 13 802 max 13 802
Val, V GTT 18 490 min 11 097 83 111
GTC 22 248 max 31 276
GTA 11 097
GTG 31 276
таб. 3. частота использования кодонов, кодирующих 1 аминокислоту.

Из таблицы видно, что самый часто-используемый код- он – GCC (кодирует аланин) – встречается 59877 раза, а самый редко-используемый – TTA (кодирует лейцин ) — 4976 раз. Стоит отметить что, такое распределение кодонов можно связать с высоким средним GC-содержанием [9].

И, если говорить про количество кодонов имеющих вид “*GC” или “*CG” ( где ‘*’ - это любой из нуклеотидов), то их в геноме Pseudomonas alkylphenoliсa значительно больше, чем кодонов оканчивающихся на “А” и “T”, и это также можно связать с относительно высоким средним GC содержанием:

*GC сумма *GC сумма *GC+*CG
GCC 59 877 313 691 GCG 55272 285301 598 992
GCG 55 272 CGC 52658
CGC 52 658 CGG 43904
TGC 56 319 CCG 55177
GGC 48 778 TCG 48328
AGC 40 787 ACG 29962
*AT сумма *TA сумма *AT+*TA
AAT 9 355 58 404 ATA 5427 50760 109 164
GAT 19 266 CTA 8299
CAT 17 197 TTA 4976
ATA 5 427 TAT 7159
TAT 7 159 TAC 13802
GTA 11097
таб. 5. Количественное соотношение аминокислот в протеоме.

В протеоме мало аминокиcлот с ароматическим радикалом (F, Y, W) . Это может быть одной из причин, по которой Pseudomonas alkylphenoliсa выживает на алкилфенольной среде. А малое количество цистеина связано с тем, что свободный цистеин может быть токсичен для клеток прокариот и его синтез находится под жестким контролем [10].

Таким образом, рассматривая количественное соотношение аминокислот в протеоме, можно сделать предположения о характеристиках организма.

3.7. Распределение длин белков.

А/К кол-во
A, Ala 185 381
R, Arg 106 749
N, Asn 51 164
D, Asp 88 261
C, Cys 16 961
Q, Gln 81 253
E, Glu 94 520
G,Gly 132 416
H, His 37 584
I, Ile 78 673
L, Leu 200 338
K, Lys 56 417
M, Met 37 771
F, Phe 60 211
P, Pro 79 777
S, Ser 98 209
T, Thr 78 737
W, Trp 24 229
Y, Tyr 43 072
V, Val 118 654
max (лейцин) 200 338
min (цистеин) 16 961
таб. 5.Количественное соотношение аминокислот в протеоме

В протеоме мало аминокиcлот с ароматическим радикалом (F, Y, W) . Это может быть одной из причин, по которой Pseudomonas alkylphenoliсa выживает на алкилфенольной среде. А малое количество цистеина связано с тем, что свободный цистеин может быть токсичен для клеток прокариот и его синтез находится под жестким контролем [10].

Таким образом, рассматривая количественное соотношение аминокислот в протеоме, можно сделать предположения о характеристиках организма.

ЗАКЛЮЧЕНИЕ

В обзоре были рассмотрены некоторые свойства генома и протеома Pseudomonas alkylphenoliсa. Говоря про геном, стоит отметить, что большинство рассмотренных свойств зависели от GC-содержания и принципа случайного распределения кодонов.

Сравнение длины белков, вычисление встречаемости кодонов, кодирующих 1 аминокислоту, и подсчет количества соответствующих аминокислот дали краткие сведения о протеоме Pseudomonas alkylphenoliсa.

Полученные результаты соотносятся с имеющейся на данный момент информацией об особенностях генома и протеома Pseudomonas alkylphenoliсa.

СПИСОК ЛИТЕРАТУРЫ

  1. Mulet M, Sánchez D, Lalucat J, Lee K, García-Valdés E. Pseudomonas alkylphenolica sp. nov., a bacterial species able to form special aerial structures when grown on p-cresol. Int J Syst Evol Microbiol. 2015;65(11):4013-4018. doi:10.1099/ijsem.0.000529
  2. Lee K, Lim EJ, Kim KS, Huang SL, Veeranagouda Y, Rehm BH. An alginate-like exopolysaccharide biosynthesis gene cluster involved in biofilm aerial structure formation by Pseudomonas alkylphenolia. Appl Microbiol Biotechnol. 2014;98(9):4137-4148. doi:10.1007/s00253-014-5529-6
  3. Brocchieri L, Karlin S. Protein length in eukaryotic and prokaryotic proteomes. Nucleic Acids Res. 2005;33(10):3390-3400. Published 2005 Jun 10. doi:10.1093/nar/gki615
  4. Lightfield J, Fram NR, Ely B. Across bacterial phyla, distantly-related genomes with similar genomic GC content have similar patterns of amino acid usage. PLoS One. 2011;6(3):e17677. Published 2011 Mar 10. doi:10.1371/journal.pone.0017677
  5. https://www.ebi.ac.uk/interpro/entry/InterPro/IPR013976/
  6. Alexander T Ho, Laurence D Hurst, Variation in Release Factor Abundance Is Not Needed to Explain Trends in Bacterial Stop Codon Usage, Molecular Biology and Evolution, Volume 39, Issue 1, January 2022, msab326, https://doi.org/10.1093/molbev/msab326
  7. Yoshizawa, S., & Böck, A. (2009). The many levels of control on bacterial selenoprotein synthesis. Biochimica et Biophysica Acta (BBA)-General Subjects, 1790(11), 1404-1414.
  8. Luciano Brocchieri, Samuel Karlin, Protein length in eukaryotic and prokaryotic proteomes, Nucleic Acids Research, Volume 33, Issue 10, 1 June 2005, Pages 3390–3400, https://doi.org/10.1093/nar/gki615
  9. Parvathy ST, Udayasuriyan V, Bhadana V. Codon usage bias. Mol Biol Rep. 2022;49(1):539-565. doi:10.1007/s11033-021-06749-4
  10. Takumi K, Nonaka G. Bacterial Cysteine-Inducible Cysteine Resistance Systems. J Bacteriol. 2016;198(9):1384-1392. Published 2016 Apr 14. doi:10.1128/JB.01039-15
  11. СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

  12. https://drive.google.com/drive/folders/1zOiNvVEjSk8vvMZAemOorKTHbhWg4_r7?usp=sharing