Ссылки на обсуждаемые геномы:
Escherichia coli str. K-12 substr. MG1655: U00096.3
Candidatus Gracilibacteria bacterium 28_42_T64: CP042461.1
Mycoplasma pneumoniae M29: NZ_CP008895.1
Посчитать старт-кодоны; объяснить, почему используется не только ATG.
Частота использования страт-кодонов в CDS, не помеченных как псевдогены, приведена в табл. 1. Кроме того, в псевдогенах у разных бактерий как старт-кодоны использовались TCA, TCC, CTA, GAA, TCT, CAA, ACA, ATA, CTC, GTT, ACT, ATT, TGA, CAC, TTC, AAA. Большего всего разных старт-кодонов (включая псевдогены) нашлось у микоплазмы — 21 (и по 6 у Gracilibacteria и E. coli).
Cand. Gracilibacteria | E. coli | M. pneumoniae | |
---|---|---|---|
ATG | 1 129 | 3 890 | 627 |
GTG | 41 | 338 | 60 |
TTG | 23 | 80 | 49 |
ATT | 4 | 6 | |
CTG | 2 | 2 | |
TTA | 1 | ||
ATC | 1 |
Таким образом, бо́льшую часть разнообразия старт-кодонов можно объяснить случайными мутациями: мутация в старт-кодоне приводит к превращению гена в псевдоген, или в уже испортившемся гене происходит мутация в старт-кодоне, которая не отсеивается отбором. Кроме того, видно, что GTG и TTG часто служат старт-кодонам. Это известный факт — в бактериальных геномах они используются. В Reddy et al., 1985, например, показали, что если у E. coli в гене аденилатциклазы заменить TTG на ATG, экспрессия гена повышается, и штамм становится нежизнеспособным. Причем эти старт-кодоны встречаются не только в генах с 5'-нетранслируемым регионом, но и в генах, где нет специальных инициирующих трансляцию последовательностей вроде Шайна-Дальгарно перед кодирующей частью (Srivastava et al., 2016). Насколько я понял из статьи, пока толком неизвестно, как это все работает.
Стоп-кодоны в середине CDS у E. coli.
У E. coli нашлось четыре CDS, у которых стоп-кодон встречается не в конце: IS911A regulator fragment (помечен как псевдоген), formate dehydrogenase N subunit alpha, formate dehydrogenase O subunit alpha и formate dehydrogenase H.
IS911 — это транспозон, состоящий из двух перекрывающихся смещенных рамок считывания (Rousseau et al., 2010). Нашедшийся стоп-кодон — это стоп-кодон первой рамки считывания. Причем, судя по тому, что координаты этого IS911A regulator fragment представлены как «join(одни координаты, другие координаты)», и он помечен как псевдоген, он сам повредился еще каким-то транспозоном и теперь не работает (см. файл task2_transposone.fas в приложенных материалах).
А в формиатдегидрогеназе у E. coli TGA кодирует селеноцистеин (Zininoni et al., 1986).
Частоты стоп-кодонов
Cand. Gracilibacteria | E. coli | M. pneumoniae | |
---|---|---|---|
TAA | 1 000 | 2 761 | 526 |
TGA | 1 | 1 246 | 0 |
TAG | 188 | 306 | 220 |
Кроме этого, у разных бактерий есть по 1–5 использований GAA, TCT, GGC, GGT, CCC, TAG, ACT, CTA, TTA, CTT, ACA, TAT, TAA, ATA, TAC, AAT, AAA, CGG, GGG, GAT и TGA в качестве стоп-кодонов.
Итак, у Gracilibacteria и микоплазмы потерялся TGA. Поищем его в кодирующих последовательностях.
Ура, нашелся! У Gracilibacteria 15 446 вхождений, у микоплазмы — 1 663. У Gracilibacteria он кодирует глицин (Hanke et al., 2014), а у микоплазм — триптофан (Inamine et al., 1989).
Кодоны лейцина.
Как видно, у кишечной палочки преобладает кодон CTG. В ее геноме есть 4 гена тРНК для этого кодона, а для остальных кодонов лейцина — 0 или 1. Я не знаю, что здесь является причиной, а что следствием: увеличение количества тРНК, подходящей к этому кодону, делает более выгодным его использование, т.к. на синтез белка тратится, например, меньше времени, или предпочтение этого кодона по какой-то другой причине сделало выгодным увеличение количества соответствующей тРНК. Очевидно, количество тРНК в клетке зависит не только от количества копий ее гена в геноме. Экспрессия гена зависит от силы промотора, и, например, от расположения гена относительно ориджина репликации: гены, расположенные ближе к ориджину, в среднем будут присутствовать в клетке в большем числе копий. Возможно, количество тРНК объясняет еще какие-то особенности распределения кодонов лейцина, кроме преобладания CTG у E. coli.
У M. pneumoniae и этой таинственной бактерии преобладает кодон TTA. Это единственный кодон лейцина, не содержащий G или C. Содержание GC в геноме у этих бактерий низко (по крайней мере, ниже 50 %) — 39,9 и 28,8 % соответственно. Возможно, преобладание этого кодона обеспечивается отбором, направленным на поддержание оптимального GC-состава. У E. coli содержание GC равно 50,8 %, и у нее не видно такой особенности.
Нарисовать cumulative GC-skew.
У Gracilibacteria и микоплазмы минимум cumulative GC-skew находится в начале последовательности; видимо, их так и клали в GenBank. У E. coli минимум в 3 870 000. Максимумы: E. coli: 1 513 000, Gracilibacteria: 628 000, M. pneumoniae: 444 000.
«Основываясь на информации из Интернета», минимум соответствует ориджину репликации (URL: https://kodomo.fbb.msu.ru/wiki/2022/1/mini_review-task, 21.12.2022).
Посчитать шестибуквенные последовательности в первых 20-ти нуклеотидах перед старт-кодоном.
По десять самых распространенных шестинуклеотидных последовательностей подписаны на рисунках. Как видно, это оказались вариации на тему Шайна-Дальгарно или TATA-box: у E. coli — первое, у Gracilibacteria — второе, у микоплазмы встретились и те, и другие. Кстати, в Srivastava et al., 2016 написано, что у микоплазмы 15 % генов имеют последовательность Шайна-Дальгарно, а у E. coli — 72 %, так что этот результат согласуется с их статьей. (Никаких Gracilibacteria там, конечно, не было).
Сценарии находятся на Google Drive.