Практикум 13
Задание 1: Встречаемость старт-кодонов
Escherichia coli str. K-12 substr. MG1655
ATG 3890
ATT 4 - обычные белки (poly(A) polymerase I, YmcF, YnfQ, translation initiation factor IF-3)
CTG 2 - обычные белки (inibitor of reinitiation of DNA replication, белок из семейства inner membrane protein YfjD)
GTG 338
TTC 1 - псевдоген (LomR)
TTG 80
Candidatus Gracilibacteria bacterium 28_42_T64
ACA 1 - псевдоген гипотетического белка
ATG 1129
GTG 41
TTG 23
TCA 1 - псевдоген (serine/threonine protein kinase)
TCT 1 - псевдоген (ATP synthase F0 subunit C)
Mycoplasma pneumoniae M29
AAA 1 - псевдоген (restriction endonuclease subunit S)
ACA 1 - псевдоген (adhesin P1)
ACT 1 - псевдоген (adhesin P1)
ATA 3 - 2 псевдогена (оба adhesin P1) и 1 псевдоген (transcription termination factor NusA)
ATC 1 - гипотетический белок
ATG 627
ATT 7 - 4 гипотетических белка, 2 обычных белка (MPN647 lipoprotein, DUF16 domain-containing protein) и 1 псевдоген adhesin)
CAA 1 - псевдоген (adhesin P1)
CAC 1 - псевдоген (adhesin P1)
CTA 1 - псевдоген (из семейства cytadherence protein)
CTC 3 - псведогены (2 из семейтсва adhesin P1 и 1 из семейства cytadherence protein)
CTG 2 - 1 обычный белок (MFS transporter) и гипотетический белок
GAA 1 - псевдоген (DUF16 domain-containing protein)
GTG 60
GTT 1 - псевдоген (cytadherence protein)
TCC 2 - псведогены (оба adhesin P1)
TCT 1 - псевдоген (adhesin P1)
TGA 1 - псевдоген (adhesin P1)
TTA 1 - обычный белок (restriction endonuclease subunit S)
TTG 49
Наиболее часто у всех бактерий встречается стандартный старт-кодон AТG. Следующим по встречаемости был кодон GTG, который также является распространенным инициаторным кодоном прокариот, а после него - TTG. Они отличаются от ATG всего одним нуклеотидом, поэтому могут появляться в результате единичных мутаций. Остальные кодоны встречаются всего по несколько раз, и чаще всего с них начинаются псеводгены и гипотетические белки, хотя для кодонов ATT, CTG и TTA также характерны полноценные белки.
Причинами, почему старт-кодоном может быть не только привычный ATG, могут быть:
- белки бактерий, контролирующие транскрипцию, могут распознавать не только ATG
- если малая субъединица рибосомы прикрепится к последовательности мРНК раньше положения стандартного старт-кодона, то рамка считывания может сдвинуться
- утрата части последовательности, содержащей ATG или GTG кодоны, может привести к тому, что стартовыми стали следующие за ними кодоны
Задание 2: Последовательности с стоп-кодонами в геноме Escherichia coli str. K-12 substr. MG1655
Стоп-кодоны встретились в 4 последовательностях:
- [gene=insN] [protein=IS911A regulator fragment] [pseudo=true]
Является псведогеном. Данная последовательность не кодирует белок, поэтому рамка считывания сбита: по этой причине стоп-кодон находится не на последнем месте. Возможно, является частью более крупной кодирующей последовательности.
- [gene=fdnG] [protein=formate dehydrogenase N subunit alpha]
- [gene=fdoG] [protein=formate dehydrogenase O subunit alpha]
- [gene=fdhF] [protein=formate dehydrogenase H]
Остальные три последовательности кодирует формиатдегидрогеназы (Fdh). В них встречается кодон TGA, который помимо стоп-кодона кодирует аминокислоту селеноцистеин (она является 21-й протеиногенной аминокислотой, поэтому не имеет личного кодона). В статье [1] указано, что именно Fdh-O, Fdh-N и Fdh-H являются единственными белками, которые включают селеноцистеин, который кодируется кодоном TGA. Возможно, отличие стоп-кодона TGA от TGA, кодирующего селеноцистеин, происходит за счет специальной последовательности после этого кодона.
Задание 3: «Пропавшие» стоп-кодоны
Escherichia coli str. K-12 substr. MG1655
TGA - 1246
TAA - 2761
TAG - 306
Candidatus Gracilibacteria bacterium 28_42_T64
TGA - 1
TAA - 1000
TAG - 188
Mycoplasma pneumoniae M29
TGA - 0
TAA - 526
TAG – 220
У Candidatus Gracilibacteria bacterium 28_42_T64 и Mycoplasma pneumoniae M29 «потерянным» стоп-кодоном является кодон TGA. Однако если отдельно рассмотреть встречаемость этого кодона в геноме этих бактерий, то получится, что у Candidatus Gracilibacteria bacterium он встречается 15446 раз, а у Mycoplasma pneumoniae M29 - 1663 раза. Это наталкивает на мысль о том, что данный кодон не выполняет обычной функции стоп-кодона у этих бактерий и кодирует какую-либо аминокислоту.
В литературе можно найти доказательство этому факту: у Candidatus Gracilibacteria bacterium кодону TGA соответствует аминокислота глицин Gly (G) [2] («The prediction that UGA codes for glycine in Gracilibacteria was experimentally validated by Hanke … through proteomic analysis of a sediment enrichment culture»), а у Mycoplasma pneumoniae M29 - триптофан [3] («Subsequent studies have shown that UGA codes for tryptophan in Mycoplasma spp. and in all nonplant mitochondria that have been examined»).
Задание 4: Частота используемости кодонов лейцина Leu (L)
Escherichia coli str. K-12 substr. MG1655
CTA - 5203
CTC - 14952
CTG - 71305
CTT - 14728
TTA - 18505
TTG - 18301
Candidatus Gracilibacteria bacterium 28_42_T64
CTA - 3357
CTC - 3968
CTG - 1714
CTT - 9333
TTA - 14767
TTG - 3237
Mycoplasma pneumoniae M29
CTA - 2826
CTC - 3158
CTG - 2470
CTT - 2782
TTA - 10295
TTG – 5571
Частоты кодонов, кодирующих лейцин, различаются как в пределах одной бактерии, так и «между» ними. В пределах одной бактерии это может быть связано с количеством соответствующих тРНК и степенью экспресси гена; между бактериями на различия могут влиять GC-состав (например, видно, что у Candidatus Gracilibacteria bacterium и Mycoplasma pneumoniae M29 наиболее часто используется кодон TTA – единственный из всех, не содержащий лейцина), а существуют гипотезы, что способность тРНК узнавать не только свой кодон, влияет на использование кодонов.
Задание 5: cumulative GC-skew Escherichia coli str. K-12 substr. MG1655
Ссылка на график: https://drive.google.com/file/d/10TE4u0SbWOkOyFxNjYxmw4OmZMItLBHC/view?usp=sharing
Минимум GC-skew cumulative Escherichia coli составил -28.327, а находится он согласно расчету в положении 3869000-3871000. Положению минимума GC-skew соответствует oriC - ориджин репликации (место, начала репликации и удвоения ДНК). oriC расположен на 3925000-326000 позициях, то есть близко к расчету.
Максимум GC-skew cumulative Escherichia coli составил 47.733, а находится он согласно расчету в положении 1513000. Положению максимума GC-skew соответствует ter - ориджин репликации (место окончания репликации). ter расположен на 1511000-1516000 позициях, то есть близко к практическому расчету.
Задание 6: Частота 6-меров
Ссылка на файлы с 20-нуклеотидными последовательностями:
Escherichia coli
https://drive.google.com/file/d/1HbZRS310_lM_08Tgu9n1l9ZHz0VeJQ6r/view?usp=sharing
Candidatus Gracilibacteria
https://drive.google.com/file/d/1bA0iNnxZpm9mhOmgqOJaWeNeEtuEfT8b/view?usp=sharing
Mycoplasma pneumoniae M29
https://drive.google.com/file/d/1EF9lnuv3nWliAJQ56klNN-wqkIQaOio_/view?usp=sharing
Escherichia coli |
Candidatus Gracilibacteria |
Mycoplasma pneumoniae M29 |
AAGGAG 182 |
AAATAA 112 |
AATTAA 39 |
TAAGGA 160 |
AAAAAA 111 |
TTTAAA 38 |
AGGAGA 128 |
TAAAAA 106 |
TTAAAA 34 |
AAGGAA 121 |
ATAAAA 102 |
AAAGGA 33 |
AAAGGA 120 |
AATAAA 101 |
ATTAAA 33 |
CAGGAG 118 |
TTTTTT 99 |
AAAGGA 33 |
AGGAGT 113 |
AAAAAT 91 |
ATTAAA 33 |
GGAGAA 104 |
TAATAA 89 |
ATTTAA 29 |
AGGAAA 99 |
ATTTTT 88 |
TAAAAA 29 |
ACAGGA 93 |
AAAATA 83 |
ATTTAA 29 |
В области 20 нуклеотидов до старт-кодона находится 5′-нетранслируемая область, последовательность Шайна-Дальгарно. Для E.Coli это AGGAGGT. Видно, что наиболее часто у этой бактерии встречаются 6-меры, похожие на эту последовательность.
Сопроводительные материалы
[2]. Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE, Strous M. Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front Microbiol. 2014 May 16;5:231. doi: 10.3389/fmicb.2014.00231. PMID: 24904545; PMCID: PMC4032931.
[3]. Osawa S, Jukes TH, Watanabe K, Muto A. Recent evidence for evolution of the genetic code. Microbiol Rev. 1992 Mar;56(1):229-64. doi: 10.1128/mr.56.1.229-264.1992. PMID: 1579111; PMCID: PMC372862.
скрипты
все скрипты в папке:
https://drive.google.com/drive/folders/1D1arsJlo-52flnn1j1h-7IXT3tjyZJfn?usp=sharing