Kodomo

Пользователь

Практикум №12

Выполнен Малышевым Андреем Дмитриевичем (1 курс, 2021)

Задание 1.

Количество разных старт-кодонов у трёх бактерий

Старт-кодоны

Escherichia

Candidatus

Mycoplasma

ACA

1
псевдоген гипотетического белка

ACC

2
псевдогены белков из одного и того же семейства
MgpC family cytadherence protein

ATA

2
псевдогены белков из одного и того же семейства
MgpC family cytadherence protein

ATC

3
обычные белки
один из них гипотетический

ATG

3883

1129

634

ATT

4
обычные белки

4
обычные белки

CTG

2
обычные белки

4
обычные белки и один псевдоген белка из семемейства
MgpC family cytadherence protein

GTG

334

41

62

GTT

1
псевдоген белка "MgpC cytadherence protein"

TСA

1
псевдоген серин-треониновой киназы
отсутствует стоп-кодон

TCT

1
псевдоген c-субъединицы АТФ-синтазы F0
отсутствует стоп-кодон

TTA

2
гипотетические белки

TTC

1
псевдоген белка LomR профага Rac

TTG

78

23

40

Как можно видеть из таблицы, составленной на основе работы программы и поиска описаний генов с необычными стартовыми кодонами, у бактерий, помимо стандартного и наиболее распространённого кодона AUG, кодирующего метионин, встречаются и другие варианты. Многие кодоны встречаются всего по несколько раз, и чаще всего с них начинаются псевдогены, в которых первый кодон может легко меняться в результате мутаций без каких-либо последствий для организма. Хотя кодоны ATT и CTG чаще всего встречаются в белках, признанных полноценными. Отдельно стоит рассматривать кодоны GTG и TTG, которые встречаются значительно чаще остальных, но всё же на порядок реже, чем ATG. Доподлинно известно, что у бактерий, архей и растений эти кодоны встречаются довольно часто, и с них могут начинаться несколько процентов всех кодирующих белок последовательностей, поэтому генетический код в этих группах рассматривается отдельно от стандартного (сайт с перечнем вариантов генетического кода, на котором бактериальному присвоен №11): https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c#SG11

Есть статьи, указывающие на то, что такие варианты кодонов могут использоваться в жизненно важных генах, связанных с транскрипцией, трансляцией и репликацией, что может служить механизмом дополнительной регуляции их экспрессии, что может быть важно в случае голодания: https://www.researchgate.net/publication/343877260_Genes_Preferring_Non-AUG_Start_Codons_in_Bacteria

Задание 2.

Название белка, соответствующего кодирующей последовательности со стоп-кодоном внутри

Предположение о возможной причине явления

CP4-6 prophage; IS911A regulator fragment

это "разорванный" псевдоген, внутрь которого встроился транспозон с геном транспозазы

formate dehydrogenase N subunit alpha

В этих последовательностях кодон TGA кодирует
21-ую аминокислоту, селеноцистеин, что определяется наличием в мРНК
после кодирующей белок последовательности последовательности SECIS,
которая формирует шпильку в трёхмерной структуре РНК,
которая распознаётся рибосомой, и она встраивает нестандартную аминокислоту.
Селеноцистеин важен для катализа.

formate dehydrogenase O subunit alpha

formate dehydrogenase H

Задание 3.

Стоп-кодоны

Escherichia

Candidatus

Mycoplasma

TAA

2756

1000

531

TAG

303

188

210

TGA

1241

1

0

У Candidatus Gracilibacteria bacterium 28_42_T64 используется генетический код №25 со странички с перечнем вариантов генетического кода: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c#SG25. Стоп-кодон TGA у этой бактерии кодирует глицин: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3619370/. И только в одном псевдогене (molecular chaperone DnaJ) он замыкает кодирующую белок последовательность.

У Mycoplasma pneumoniae M29 используется генетический код №4 со странички с перечнем вариантов генетического кода: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c#SG4. В маленьком геноме этой паразитической бактерии (857799 bp) стоп-кодон TGA кодирует триптофан: https://pubmed.ncbi.nlm.nih.gov/7691196/

Таким образом, редкое использование определённых стоп-кодонов говорит об изменениях в генетическом коде.

Задание 4.

Кодоны лейцина

Escherichia

Candidatus

Mycoplasma

кол-во

частота

кол-во

частота

кол-во

частота

CTA

5201

0.036

3357

0.092

2848

0.105

CTC

14926

0.105

3968

0.109

3161

0.116

CTG

71198

0.499

1714

0.047

2473

0.091

CTT

14719

0.103

9332

0.257

2797

0.103

TTA

18484

0.129

14766

0.406

10295

0.379

TTG

18283

0.128

3237

0.089

5601

0.206

Насколько мне известно, частоты использования разных кодонов для одной и той же аминокислоты зависят от того, какие последствия будут у однонуклеотидных замен в этих кодонах. С точки зрения химии, разные нуклеотиды имеют разную способность превращаться в ходе химических преобразований в другие. При ошибках и неточностях в работе систем репарации происходят мутации, которые могут оказаться синонимичными или нет. При синонимичной замене аминокислота в белке не изменится. Таким образом, различия в частотах между разными видами бактерий могут быть отчасти объяснены различиями в генетическом коде, а внутри одного генома - химическими свойствами нуклеотидов, хотя я бы сказал, что здесь всё-таки наиболее значительную роль играет эволюционная история организмов и фактор случайности. И, конечно, здесь важно понимать, что при связывании тРНК с мРНК в ходе трансляции часто наиболее важны только два первых основания кодона, а третье называют качающимся, поскольку существуют тРНК, способные связываться сразу с несколькими кодонами, которые отличаются только третьим основанием (Основы биохимии Ленинджера, том 3, стр. 174-175).

Задание 5.

По ссылке можно найти таблицу, полученную при работе программы и график GC-skew cumulative, построенный на её основе:

Гиперссылка: https://docs.google.com/spreadsheets/d/1G21fXfpTm8B1Yi70FEFrcmhAlGzIXS-kqR3BQ79qKWw/edit?usp=sharing

Минимуму GC-skew cumulative соответствует ориджин репликации, то место, где расплетаются цепи ДНК и на их основе начинают строиться комплементарные цепи во время процесса удвоения генетического материала перед делением бактериальной клетки. Минимум по результатам работы таблицы: 3868000..3872000, положение oriC по данным GenBank: 3925744..3925975. Максимум: 1511000..1516000. Если вспомнить, что хромосома бактерии кольцевая, и посчитать положение диаметрально противоположной точки для ориджина репликации, то окажется, что максимуму GC_skew cumulative соответствует точка, в которой встречаются две репликационные вилки и репликация заканчивается.

Задание 6.

Если проанализировать все последовательности из 6 нуклеотидов в отрезках длиной 20 нуклеотидов до кодирующих белок последовательностей, то получаются следующие результаты (в таблице приведены наиболее часто встречающиеся варианты):

6-мер

число встреч

AAGGAG

329

TAAGGA

282

CAGGAG

255

AGGAGA

254

AAAGGA

225

AAGGAA

222

Важно отметить, что если мы будем рассматривать только последовательности, содержащие комбинацию AGGA, то найдётся 1664 6-меров перед кодирующими белок последовательностями, притом общее число генов c белками у бактерии 4285. А для комбинации AGGAG это число составит 710, что тоже внушительно. Всё это указывает на наличие перед кодирующими последовательностями последовательностей Шайна-Дальгарно, имеющих консенсусный вид GGAGG (342 встречи). Эти последовательности нужны для связывания мРНК с 16S РНК в малой субъединице рибосомы при инициации трансляции: https://pubmed.ncbi.nlm.nih.gov/32065583/

Users/malyshev.andrey/pr12 (последним исправлял пользователь malyshev.andrey 2021-12-22 06:53:12)