Kodomo

Пользователь

Практикум 13

Задание 1: Встречаемость старт-кодонов

Escherichia coli str. K-12 substr. MG1655

ATG 3890

ATT 4 - обычные белки (poly(A) polymerase I, YmcF, YnfQ, translation initiation factor IF-3)

CTG 2 - обычные белки (inibitor of reinitiation of DNA replication, белок из семейства inner membrane protein YfjD)

GTG 338

TTC 1 - псевдоген (LomR)

TTG 80

Candidatus Gracilibacteria bacterium 28_42_T64

ACA 1 - псевдоген гипотетического белка

ATG 1129

GTG 41

TTG 23

TCA 1 - псевдоген (serine/threonine protein kinase)

TCT 1 - псевдоген (ATP synthase F0 subunit C)

Mycoplasma pneumoniae M29

AAA 1 - псевдоген (restriction endonuclease subunit S)

ACA 1 - псевдоген (adhesin P1)

ACT 1 - псевдоген (adhesin P1)

ATA 3 - 2 псевдогена (оба adhesin P1) и 1 псевдоген (transcription termination factor NusA)

ATC 1 - гипотетический белок

ATG 627

ATT 7 - 4 гипотетических белка, 2 обычных белка (MPN647 lipoprotein, DUF16 domain-containing protein) и 1 псевдоген adhesin)

CAA 1 - псевдоген (adhesin P1)

CAC 1 - псевдоген (adhesin P1)

CTA 1 - псевдоген (из семейства cytadherence protein)

CTC 3 - псведогены (2 из семейтсва adhesin P1 и 1 из семейства cytadherence protein)

CTG 2 - 1 обычный белок (MFS transporter) и гипотетический белок

GAA 1 - псевдоген (DUF16 domain-containing protein)

GTG 60

GTT 1 - псевдоген (cytadherence protein)

TCC 2 - псведогены (оба adhesin P1)

TCT 1 - псевдоген (adhesin P1)

TGA 1 - псевдоген (adhesin P1)

TTA 1 - обычный белок (restriction endonuclease subunit S)

TTG 49

Наиболее часто у всех бактерий встречается стандартный старт-кодон AТG. Следующим по встречаемости был кодон GTG, который также является распространенным инициаторным кодоном прокариот, а после него - TTG. Они отличаются от ATG всего одним нуклеотидом, поэтому могут появляться в результате единичных мутаций. Остальные кодоны встречаются всего по несколько раз, и чаще всего с них начинаются псеводгены и гипотетические белки, хотя для кодонов ATT, CTG и TTA также характерны полноценные белки.

Причинами, почему старт-кодоном может быть не только привычный ATG, могут быть:

- белки бактерий, контролирующие транскрипцию, могут распознавать не только ATG

- если малая субъединица рибосомы прикрепится к последовательности мРНК раньше положения стандартного старт-кодона, то рамка считывания может сдвинуться

- утрата части последовательности, содержащей ATG или GTG кодоны, может привести к тому, что стартовыми стали следующие за ними кодоны

Задание 2: Последовательности с стоп-кодонами в геноме Escherichia coli str. K-12 substr. MG1655

Стоп-кодоны встретились в 4 последовательностях:

- [gene=insN] [protein=IS911A regulator fragment] [pseudo=true]

Является псведогеном. Данная последовательность не кодирует белок, поэтому рамка считывания сбита: по этой причине стоп-кодон находится не на последнем месте. Возможно, является частью более крупной кодирующей последовательности.

- [gene=fdnG] [protein=formate dehydrogenase N subunit alpha]

- [gene=fdoG] [protein=formate dehydrogenase O subunit alpha]

- [gene=fdhF] [protein=formate dehydrogenase H]

Остальные три последовательности кодирует формиатдегидрогеназы (Fdh). В них встречается кодон TGA, который помимо стоп-кодона кодирует аминокислоту селеноцистеин (она является 21-й протеиногенной аминокислотой, поэтому не имеет личного кодона). В статье [1] указано, что именно Fdh-O, Fdh-N и Fdh-H являются единственными белками, которые включают селеноцистеин, который кодируется кодоном TGA. Возможно, отличие стоп-кодона TGA от TGA, кодирующего селеноцистеин, происходит за счет специальной последовательности после этого кодона.

Задание 3: «Пропавшие» стоп-кодоны

Escherichia coli str. K-12 substr. MG1655

TGA - 1246

TAA - 2761

TAG - 306

Candidatus Gracilibacteria bacterium 28_42_T64

TGA - 1

TAA - 1000

TAG - 188

Mycoplasma pneumoniae M29

TGA - 0

TAA - 526

TAG – 220

У Candidatus Gracilibacteria bacterium 28_42_T64 и Mycoplasma pneumoniae M29 «потерянным» стоп-кодоном является кодон TGA. Однако если отдельно рассмотреть встречаемость этого кодона в геноме этих бактерий, то получится, что у Candidatus Gracilibacteria bacterium он встречается 15446 раз, а у Mycoplasma pneumoniae M29 - 1663 раза. Это наталкивает на мысль о том, что данный кодон не выполняет обычной функции стоп-кодона у этих бактерий и кодирует какую-либо аминокислоту.

В литературе можно найти доказательство этому факту: у Candidatus Gracilibacteria bacterium кодону TGA соответствует аминокислота глицин Gly (G) [2] («The prediction that UGA codes for glycine in Gracilibacteria was experimentally validated by Hanke … through proteomic analysis of a sediment enrichment culture»), а у Mycoplasma pneumoniae M29 - триптофан [3] («Subsequent studies have shown that UGA codes for tryptophan in Mycoplasma spp. and in all nonplant mitochondria that have been examined»).

Задание 4: Частота используемости кодонов лейцина Leu (L)

Escherichia coli str. K-12 substr. MG1655

CTA - 5203

CTC - 14952

CTG - 71305

CTT - 14728

TTA - 18505

TTG - 18301

Candidatus Gracilibacteria bacterium 28_42_T64

CTA - 3357

CTC - 3968

CTG - 1714

CTT - 9333

TTA - 14767

TTG - 3237

Mycoplasma pneumoniae M29

CTA - 2826

CTC - 3158

CTG - 2470

CTT - 2782

TTA - 10295

TTG – 5571

Частоты кодонов, кодирующих лейцин, различаются как в пределах одной бактерии, так и «между» ними. В пределах одной бактерии это может быть связано с количеством соответствующих тРНК и степенью экспресси гена; между бактериями на различия могут влиять GC-состав (например, видно, что у Candidatus Gracilibacteria bacterium и Mycoplasma pneumoniae M29 наиболее часто используется кодон TTA – единственный из всех, не содержащий лейцина), а существуют гипотезы, что способность тРНК узнавать не только свой кодон, влияет на использование кодонов.

Задание 5: cumulative GC-skew Escherichia coli str. K-12 substr. MG1655

Ссылка на график: https://drive.google.com/file/d/10TE4u0SbWOkOyFxNjYxmw4OmZMItLBHC/view?usp=sharing

Минимум GC-skew cumulative Escherichia coli составил -28.327, а находится он согласно расчету в положении 3869000-3871000. Положению минимума GC-skew соответствует oriC - ориджин репликации (место, начала репликации и удвоения ДНК). oriC расположен на 3925000-326000 позициях, то есть близко к расчету.

Максимум GC-skew cumulative Escherichia coli составил 47.733, а находится он согласно расчету в положении 1513000. Положению максимума GC-skew соответствует ter - ориджин репликации (место окончания репликации). ter расположен на 1511000-1516000 позициях, то есть близко к практическому расчету.

Задание 6: Частота 6-меров

Ссылка на файлы с 20-нуклеотидными последовательностями:

Escherichia coli

https://drive.google.com/file/d/1HbZRS310_lM_08Tgu9n1l9ZHz0VeJQ6r/view?usp=sharing

Candidatus Gracilibacteria

https://drive.google.com/file/d/1bA0iNnxZpm9mhOmgqOJaWeNeEtuEfT8b/view?usp=sharing

Mycoplasma pneumoniae M29

https://drive.google.com/file/d/1EF9lnuv3nWliAJQ56klNN-wqkIQaOio_/view?usp=sharing

Escherichia coli

Candidatus Gracilibacteria

Mycoplasma pneumoniae M29

AAGGAG 182

AAATAA 112

AATTAA 39

TAAGGA 160

AAAAAA 111

TTTAAA 38

AGGAGA 128

TAAAAA 106

TTAAAA 34

AAGGAA 121

ATAAAA 102

AAAGGA 33

AAAGGA 120

AATAAA 101

ATTAAA 33

CAGGAG 118

TTTTTT 99

AAAGGA 33

AGGAGT 113

AAAAAT 91

ATTAAA 33

GGAGAA 104

TAATAA 89

ATTTAA 29

AGGAAA 99

ATTTTT 88

TAAAAA 29

ACAGGA 93

AAAATA 83

ATTTAA 29

В области 20 нуклеотидов до старт-кодона находится 5′-нетранслируемая область, последовательность Шайна-Дальгарно. Для E.Coli это AGGAGGT. Видно, что наиболее часто у этой бактерии встречаются 6-меры, похожие на эту последовательность.

Сопроводительные материалы

[1]. https://www.researchgate.net/publication/236600821_Selective_selC-Independent_Selenocysteine_Incorporation_into_Formate_Dehydrogenases

[2]. Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE, Strous M. Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front Microbiol. 2014 May 16;5:231. doi: 10.3389/fmicb.2014.00231. PMID: 24904545; PMCID: PMC4032931.

[3]. Osawa S, Jukes TH, Watanabe K, Muto A. Recent evidence for evolution of the genetic code. Microbiol Rev. 1992 Mar;56(1):229-64. doi: 10.1128/mr.56.1.229-264.1992. PMID: 1579111; PMCID: PMC372862.

скрипты

все скрипты в папке:

https://drive.google.com/drive/folders/1D1arsJlo-52flnn1j1h-7IXT3tjyZJfn?usp=sharing

Users/lizzzafomenko/pr13 (последним исправлял пользователь lizzzafomenko 2022-12-15 22:41:00)