Kodomo

Пользователь

Отчёт о практикуме №13

Код, использованный для выполнения этих заданий, можно посмотреть в Google Colab по ссылке.

Задание 1

В таблице 1 я привела встречаемость трёх самых частых старт-кодонов у трёх исследуемых бактерий. У каждой из них встречаются и другие старт-кодоны.

Escherichia coli

Candidatus Gracilibacteria bacterium

Mycoplasma pneumoniae

ATG

3890

1129

627

GTG

338

41

60

TTG

80

23

49

Табл. 1. Встречаемость кодонов ATG, GTG и TTG в начале белок-кодирующих последовательностей у исследованных бактерий.

Можно предложить несколько версий, по которым может использоваться не только ATG:

1) Некоторые из последовательностей с альтернативным старт-кодоном уже не кодируют белок, а выполняют регуляторную функцию или стали псевдогенами.

2) Рибосомы этих бактерий могут узнавать не только ATG как старт-кодон, и не только метионин может быть у них первой аминокислотой в первичной структуре белка.

3) Можно предположить, что происходит не полностью комплементарное взаимодействие между антикодоном тРНК и кодоном на мРНК, учитывая, что три самых частых кодона различаются только первым нуклеотидом. Впрочем, обычно не полностью комплементарное взаимодействие ("wobbling") происходит, когда у кодона к антикодону не подходит третий нуклеотид, а не первый.

Задание 2

У исследуемого штамма E. coli стоп-кодон встречается внутри белок-кодирующей последовательности в четырёх генах. Часть их описаний привожу ниже.

[protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)]
[protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [location=1547401..1550448]
[protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [location=complement(4082772..4085822)]
[protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [location=complement(4297219..4299366)]

У первого гена посередине встречается стоп-кодон, поскольку это псевдоген, а у остальных трëх этот стоп-кодон кодирует селеноцистеин ("Seq" - трёхбуквенное обозначение аминокислоты селеноцистеин; в информации про гены указано, что в нем есть участки в 3 п.н., кодирующие аминокислоту (aa) селеноцистеин (Seq)).

Задание 3

В таблице 2 привожу встречаемость «канонических» стоп-кодонов у исследуемых бактерий. У каждой из них на конце генов встречались и другие кодоны.

Escherichia coli

Candidatus Gracilibacteria bacterium

Mycoplasma pneumoniae

TGA

1246

1

0

TAA

2761

1000

526

TAG

306

188

220

Табл. 2. Встречаемость «канонических» стоп-кодонов у исследуемых бактерий.

Видно, что у Candidatus Gracilibacteria bacterium и Mycoplasma pneumoniae кодон TGA практически не встречается на концах генов. Видимо, это связано с тем, что у Mycoplasma TGA кодирует триптофан, а у Gracilibacteria — глицин (1).

Задание 4

В стандартном генетическом коде лейцин кодирует 6 кодонов: CTT, CTC, CTA, CTG, TTA и TTG. Их частоты у исследуемых бактерий приведены в таблице 3.

Escherichia coli

Candidatus Gracilibacteria bacterium

Mycoplasma pneumoniae

CTA

5203

3357

2826

CTC

14952

3968

3158

CTG

71305

1714

2470

CTT

14728

9333

2782

TTA

18505

14767

10295

TTG

18301

3237

5571

Табл. 3. Частота кодирующих лейцин кодонов у исследуемых бактерий.

Внутри одного вида бактерий частоты этих кодонов могут отличаться по нескольким причинам:

1) Бактерия утратила тРНК к некоторым кодонам, и теперь они отсеиваются отбором и встречаются реже (предполагая, что не полностью комплементарное взаимодействие кодона и антикодона менее эффективно, чем полностью комплементарное).

2) Из некоторых кодонов по каким-то причинам легче в результате мутаций получается что-то летальное для бактерии.

3) Возможно, кодоны, в которых больше G и C, быстрее связываются с антикодоном при комплементарном взаимодействии, так как образуют больше водородных связей. Предполагаю, что это может быть адаптивно.

Может быть, частота встречаемости этих кодонов разнится у разных видов по какой-то из следующих причин:

1) Эти виды живут в условиях, в которых адаптивен разный GC-состав. Те бактерии, которым «нужно» больше гуанина и тимина, чаще используют кодоны, в которых их больше.

2) Эти виды потеряли разные гены тРНК.

3) На самом деле некоторые кодоны у этих бактерий кодируют не лейцин. Но по литературным данным (1) это не так.

Задание 5

К сожалению, на KodomoWiki нельзя вставить картинку, но график кумулятивного GC-skew E. coli можно увидеть по ссылке на Google Colab выше или по этой ссылке. Предположительно, минимума кумулятивный GC-skew достигает в точке ориджина репликации, максимума - в точке терминала репликации. Таким образом, предполагаемый терминал транскрипции находится у исследуемого штамма E. coli приблизительно в 1614000 п.н. от условного начала хромосомы, ориджин - приблизительно в 3971000 п.н.

А строчку "oriC" в genbank я не нашла.

Задание 6

Чаще всего в 20 нуклеотидах перед старт-кодоном у исследуемого штамма E. coli встречались 10 гексамеров, приведенные в таблице 4.

AAGGAG

329 раз

TAAGGA

283 раз

CAGGAG

255 раз

AGGAGA

255 раз

AAAGGA

227 раз

AAGGAA

223 раз

AGGAGT

215 раз

GGAGAA

206 раз

AGGAAA

189 раз

ACAGGA

179 раз

Табл. 4. Встречаемость самых частых гексамеров в 20 нуклеотидах перед старт-кодоном в геноме E. coli.

Видимо, гексамеры, чаще всего использующиеся в промоторах, помогают связаться с ДНК РНК-полимеразе или другим способом регулируют транскрипцию (например, с ними могут связываться регуляторы транскрипции). Любопытно, что всего у E. coli встретилось 4023 таких гексамера из 4096 возможных, то есть 73 варианта гексамеров вообще не встречаются у нее близко к старт-кодону.

Судя по всему, найденные гексамеры - участки канонической последовательности Шайна-Дальгарно у E. coli. Эта последовательность - TAAGGAGG - комплементарно взаимодействует с 16S рРНК (2). Видно, что два самых частых гексамера - куски этой последовательности, оставшиеся часто встречаемые гексамеры похожи на её участки (отличаются заменой или вставкой 1-2 нуклеотидов).

Использованная литература:

1) Seligmann H. Phylogeny of genetic codes and punctuation codes within genetic codes. Biosystems. 2015 Mar;129:36-43. doi: 10.1016/j.biosystems.2015.01.003. Epub 2015 Jan 16. PMID: 25600501. 2) Ludwig P, Huber M, Lehr M, Wegener M, Zerulla K, Lange C, Soppa J. Non-canonical Escherichia coli transcripts lacking a Shine-Dalgarno motif have very different translational efficiencies and do not form a coherent group. Microbiology (Reading). 2018 Apr;164(4):646-658. doi: 10.1099/mic.0.000619. Epub 2018 Feb 22. PMID: 29469690.

Users/ninatutubalina/pr13 (последним исправлял пользователь ninatutubalina 2022-12-22 15:13:35)