Практикум 13
Ссылки на обсуждаемые геномы:
Escherichia coli str. K-12 substr. MG1655 https://www.ncbi.nlm.nih.gov/nuccore/U00096.3
Candidatus Gracilibacteria bacterium 28_42_T64 https://www.ncbi.nlm.nih.gov/nuccore/CP042461.1
Mycoplasma pneumoniae M29 https://www.ncbi.nlm.nih.gov/nuccore/NZ_CP008895.1
Задание 1
Посчитать старт-кодоны; объяснить, почему используется не только ATG.
Частота использования страт кодонов в CDS, не помеченных как псевдогены, приведена в табл. 1. Кроме того, в псевдогенах у разных бактерий как старт-кодоны использовались TCA, TCC, CTA, GAA, TCT, CAA, ACA, ATA, CTC, GTT, ACT, ATT, TGA, CAC, TTC, AAA. Большего всего разных старт-кодонов (включая псевдогены) нашлось у микоплазмы — 21 (и по 6 у Gracilibacteria и E. coli).
Табл. 1. Встречаемость старт-кодонов у рассматриваемых бактерий.
Cand. Gracilibacteria |
E. coli |
M. pneumoniae |
|
ATG |
1129 |
3890 |
627 |
GTG |
41 |
338 |
60 |
TTG |
23 |
80 |
49 |
ATT |
|
4 |
6 |
CTG |
|
2 |
2 |
TTA |
|
|
1 |
ATC |
|
|
1 |
Таким образом, большую часть разнообразия старт-кодонов можно объяснить случайными мутациями: мутация в старт-кодоне приводит к превращению гена в псевдоген, или в уже испортившемся гене происходит мутация в старт-кодоне, которая не отсеивается отбором. Кроме того, видно, что GTG и TTG часто служат старт-кодонам. Это известный факт — в бактериальных геномах они используются. В Reddy et al., 1985, например, показали, что если у E. coli в гене аденилатциклазы заменить TTG на ATG, экспрессия гена повышается, и штамм становится нежизнеспособным. Причем эти старт-кодоны встречаются не только в генах с 5'-нетранслируемым регионом, но и в генах, где нет специальных инициирующих трансляцию последовательностей вроде Шайна-Дальгарно перед кодирующей частью (Srivastava et al., 2016). Насколько я понял из статьи, пока толком неизвестно, как это все работает.
Задание 2
Стоп-кодоны в середине CDS у E. coli.
У E. coli нашлось четыре CDS, у которых стоп-кодон встречается не в конце: IS911A regulator fragment (помечен как псевдоген), formate dehydrogenase N subunit alpha, formate dehydrogenase O subunit alpha и formate dehydrogenase H.
IS911 — это транспозон, состоящий из двух перекрывающихся смещенных рамок считывания (Rousseau et al., 2010). Нашедшийся стоп-кодон — это стоп-кодон первой рамки считывания. Причем, судя по тому, что координаты этого IS911A regulator fragment представлены как join(одни координаты, другие координаты), и он помечен как псевдоген, он сам повредился еще каким-то транспозоном и теперь не работает (см. файл task2_transposone.fas в приложенных материалах).
А в форматдегидрогеназе у E. coli TGA кодирует селеноцистеин (Zininoni et al., 1986).
Задание 3
Частоты стоп-кодонов.
Табл. 2. Встречаемость основных стоп-кодонов у рассматриваемых бактерий.
Cand. Gracilibacteria |
E. coli |
M. pneumoniae |
|
TAA |
1000 |
2761 |
526 |
TGA |
1 |
1246 |
0 |
TAG |
188 |
306 |
220 |
Кроме этого, у разных бактерий есть по 1-5 использований GAA, TCT, GGC, GGT, CCC, TAG, ACT, CTA, TTA, CTT, ACA, TAT, TAA, ATA, TAC, AAT, AAA, CGG, GGG, GAT и TGA в качестве стоп-кодонов.
Итак, у Gracilibacteria и микопзазмы потерялся TGA. Поищем его в кодирующих последовательностях.
Ура, нашелся! У Gracilibacteria 15 446 вхождений, у микоплазмы — 1 663. У Gracilibacteria он кодирует глицин (Hanke et al., 2014), а у микоплазм — триптофан (Inamine et al., 1989).
Задание 4
Кодоны лейцина.
См. рисунок
Как видно, у кишечной палочки преобладает кодон CTG. В ее геноме есть 4 гена тРНК для этого кодона, а для остальных кодонов лейцина — 0 или 1. Я не знаю, что здесь является причиной, а что следствием: увеличение количества тРНК, подходящей к этому кодону, делает более выгодным его использование, т.к. на синтез белка тратится, например, меньше времени, или предпочтение этого кодона по какой-то другой причине сделало выгодным увеличение количества соответствующей тРНК. Очевидно, количество тРНК в клетке зависит не только от количества копий ее гена в геноме. Экспрессия гена зависит от силы промотора, и, например, от расположения гена относительно ориджина репликации: гены, расположенные ближе к ориджину, в среднем будут присутствовать в клетке в большем числе копий. Возможно, количество тРНК объясняет еще какие-то особенности распределения кодонов лейцина, кроме преобладания CTG у E. coli.
У M. pneumoniae и этой таинственной бактерии преобладает кодон TTA. Это единственный кодон лейцина, не содержащий G или C. Содержание GC в геноме у этих бактерий низко (по крайней мере, ниже 50 %) – 39,9 и 28,8 % соответственно. Возможно, преобладание этого кодона обеспечивается отбором, направленным на поддержание оптимального GC-состава. У E. coli содержание GC равно 50,8 %, и у нее не видно такой особенности.
Задание 5
Нарисовать cumulative GC-skew.
См. рисунок
У Gracilibacteria и микоплазмы минимум cumulative GC-skew находится в начале последовательности; видимо, их так и клали в GenBank. У E. coli минимум в 3 870 000. Максимумы: E. coli: 1 513 000, Gracilibacteria: 628 000, M. pneumoniae: 444 000.
"Основываясь на информации из Интернета", минимум соответствует ориджину репликации (URL: https://kodomo.fbb.msu.ru/wiki/2022/1/mini_review-task, 21.12.2022))).
Задание 6
Посчитать шестибуквенные последовательности в промоторах.
См. рисунки: E. coli, M. pneumoniae, Cand. Gracilibacteria.
По десять самых распространенных шестинуклеотидных последовательностей подписаны на рисунках. Как видно, это оказались вариации на тему Шайна-Дальгарно или TATA-box: у E. coli — первое, у Gracilibacteria — второе, у микоплазмы встретились и те, и другие. Кстати, в Srivastava et al., 2016 написано, что у микоплазмы 15 % генов имеют последовательность Шайна-Дальгарно, а у E. coli — 72 %, так что этот результат согласуется с их статьей. (Никаких Gracilibacteria там, конечно, не было).
Приложенные материалы
Рисунки и сценарии находятся на Google Drive: https://drive.google.com/drive/folders/19slcKs2o_eayqA8AM3V_yctJp8ufWcS5?usp=share_link
Список литературы
Reddy, P., Peterfofsky, A., McKenney, K. Translational efficiency of the Escherichia coli adenylate cyclase gene: Mutating the UUG initiation codon to GUG or AUG results in increased gene expression (cya:galK fusions/oligonucleotide-directed mutagenesis). Proc. Nadl. Acad. Sci. USA 82 (1985).
Srivastava, A., Gogoi, P., Deka, B., Goswami, S., Kanaujia, S. In silico analysis of 5′-UTRs highlights the prevalence of Shine–Dalgarno and leaderless-dependent mechanisms of translation initiation in Bacteria and Archaea, respectively. Journal of Theoretical Biology 402 (2016).
Rousseau, P., Tardin, C., Tolou, N., Salomé L., Chandler, M. A model for the molecular organisation of the IS911 transpososome. Mobile DNA 1, 16 (2010).
Zinoni, F., Birkmann, A., Stadtman, T., Bock A. Nucleotide sequence and expression of the selenocysteinecontaining polypeptide of formate dehydrogenase (formate-hydrogen-lyase-linked) from Escherichia coli. Proc. Nati. Acad. Sci. USA 83, (1986).
Hanke, A., Hamann, E., Sharma, R., Geelhoed, J., Hargesheimer, T., Kraft, B., Meyer, V., Lenk, S., Osmers, H., Wu, R., Makinwa, K., Hettich, R., Banfield, J., Tegetmeyer, H., Strous, M. Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Frontiers in Microbiology 5 (2014).
Inamine, J., Ho, K., Loechel, S., Hu, P. Evidence that UGA is read as a tryptophan codon rather than as a stop codon by Mycoplasma pneumoniae, Mycoplasma genitalium, and Mycoplasma gallisepticum. Journal of Bacteriology 172, 1 (1990).