Задание №1
1. Escherichia coli str. K-12 substr. MG1655:
У данной бактерии встречаются следующие страт-кодоны:
Старт-кодоны |
Встречаемость |
ATG |
3883 |
ATT |
4 |
CTG |
2 |
GTG |
334 |
TTC |
1 |
TTG |
78 |
Один из старт-кодонов "ATT" инициирует транскрипцию гена pcnB, кодирующего белок "poly(A) polymerase I". Как выяснилось, использование неканонического кодона - это способ ограничить транскрипцию важного гена, который при овер-экспрессии является токсичным для бактерии [1]. Ген lomR, в котором встречается единственный в геноме данной бактерии старт-кодон TTC, является псевдогеном. Он является фрагментом более крупной кодирующей последовательности со вставленным стоп-кодоном [2].
2. Candidatus Gracilibacteria bacterium 28_42_T64:
Старт-кодоны |
Встречаемость |
ACA |
1 |
ATG |
1129 |
GTG |
41 |
TCA |
1 |
TCT |
1 |
TTG |
23 |
Старт-кодоны, представленные в геноме один раз, кодируют псевдогены (от того и редко встречаемы). Мало представленная группа старт-кодонов TTG (всего 23 в геноме) входят в последовательности, 57% из которых только предположительно являются белками (а скорее всего это сломанные гены).
3. Mycoplasma pneumoniae M29:
Старт-кодоны |
Встречаемость |
ACC |
2 |
ATA |
2 |
ATC |
3 |
ATG |
634 |
ATT |
4 |
CTG |
4 |
GTG |
62 |
GTT |
1 |
TTA |
2 |
TTG |
40 |
Пара редких старт-кодонов ACC (как и ATA, GTT) маркирует гены, кодирующие белки клеточной адгезии из семейства MgpC, имеющие домены, способные связываться с сиаловой кислотой [3]. Возможно, использование уникального старт-кодона помогает микоплазме быстро менять экспрессию различных белков клеточной адгезии, позволяя эффективно приспосабливаться к меняющимся условиям окружающей среды и, как следствие, увеличивать способность к вирулентности.
Задание №2
"Лишние" стоп-кодоны встречаются в четырёх последовательностях генома кишечной палочки:
1) [gene=insN] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true]. Данный ген является псевдогеном. Этот ген прерывается стоп-кодоном и является фрагментом более крупной кодирующей последовательности.
2) [gene=fdnG] [protein=formate dehydrogenase N subunit alpha]
3) [gene=fdoG] [protein=formate dehydrogenase O subunit alpha]
4 )[gene=fdhF] [protein=formate dehydrogenase H]
Последние три последовательности кодируют субъединицы, входящие в состав формиатдегидрогеназы. Поскольку в их последовательностях "лишним" является TGA, то возникает мысль, что этот стоп-кодон кодирует селеноцистеин. Предположительно, после этого кодона следует специальная последовательность, которая определяет этот кодон именно как кодон, кодирующий селеноцистеин, а не как стоп-кодон. И действительно, в одной из статей я нашёл информацию о том, что формиатдегидрогеназы - единственные белки в кишечной палочке, включающие таким образом селеноцистеин [4]. В эксперименте кишечные палочки выращивались в избытке селена. Предполагалось, что селен будет токсичным по причине неправильного включения селеноцистеина в белки. Но по существу на селеноцистеин замещались только те остатки цистеина, что не играли ключевой роли в катализе процесса. Вероятно, это может действовать как буферная система для борьбы с избытком внутриклеточного селена.
Задание №3
Данные статистики "стандартных стоп-кодонов":
1. Escherichia coli str. K-12 substr. MG1655:
TGA - 1241
TAA - 2756
TAG - 303
2. Candidatus Gracilibacteria bacterium 28_42_T64:
TGA - 1
TAA - 1000
TAG - 188
3. Mycoplasma pneumoniae M29:
TGA - 0
TAA - 531
TAG - 210
В то же время выяснилось, что в геноме Candidatus Gracilibacteria bacterium 28_42_T64 количество кодонов TGA равно 13688, а в геноме Mycoplasma pneumoniae M29 - 19869. Соответственно, возникает предположение, что кодон TGA в геномах данных бактерий выполняет другую функцию (не как стоп-кодон). И действительно, в геноме Candidatus Gracilibacteria bacterium 28_42_T64 кодон TGA кодирует аминокислоту глицин [5], а в геноме Mycoplasma pneumoniae M29 - триптофан [6].
Задание №4
Данные по встречаемости кодонов, кодирующих лейцин:
1. Escherichia coli str. K-12 substr. MG1655:
CTA - 5201
CTC - 14926
CTG - 71198
CTT - 14719
TTA - 18484
TTG - 18283
2. Candidatus Gracilibacteria bacterium 28_42_T64:
CTA - 4861
CTC - 4491
CTG - 4147
CTT - 8053
TTA - 15077
TTG - 8048
3. Mycoplasma pneumoniae M29:
CTA - 3619
CTC - 2168
CTG - 3220
CTT - 5267
TTA - 8959
TTG - 6679
Мы наблюдаем значительные различия в встречаемости синонимичных кодонов. В пределах одной бактерии это, быть может, связано с GC-составом (например, у двух последних бактерий кодоны, содержащие C или G, встречаются реже). Также это как-то, вероятно, связано с концентрацией соответствующих этим кодонам тРНК. В разных бактериях на частоту отдельных кодонов может влиять буквально всё: различие генетического состава, концентрация различных регуляторных факторов и прочее.
Задание №5
В полученном графике отражена зависимость cumulative GC-skew от координаты в геноме Escherichia coli str. K-12 substr. MG1655. Как известно, минимальное значение cumulative GC-skew соответствует OriC, а максимальное - ter. Предположительные координаты OriC и Ter - 3870000 и 1513000. Это согласуется с данными об origin на страничке бактерии в GenBank: 3925744..3925975
Задание №6
В данной таблице содержатся данные о встречаемости различных 6-меров в участках, составляющих 20 нуклеотидов до старта в всех CDS генома. Встречаемость наибольшая у следующих 6-меров: GAGGAG (235), GGAGGA (232), GGAGGT (220), AGGAGG (218) - та самая распространённая у E. coli последовательность Шайна-Дальгарно. В целом можно сказать, что все эти 6-меры содержат чрезвычайно большое количество гуанина.
[1]. https://onlinelibrary.wiley.com/doi/abs/10.1046/j.1365-2958.2002.02945.x
[2]. https://biocyc.org/gene?orgid=ECOLI&id=G6692-MONOMER
[3]. https://pfam.xfam.org/family/MgpC
[5]. Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE, Strous M. Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front Microbiol. 2014 May 16;5:231. doi: 10.3389/fmicb.2014.00231. PMID: 24904545; PMCID: PMC4032931.
[6]. Osawa S, Jukes TH, Watanabe K, Muto A. Recent evidence for evolution of the genetic code. Microbiol Rev. 1992 Mar;56(1):229-64. doi: 10.1128/mr.56.1.229-264.1992. PMID: 1579111; PMCID: PMC372862.