Kodomo

Пользователь

Задачи выполнялись при помощи Python. Старт-кодоны и стоп-кодоны исследовались у последовательностей, не являющихся псевдогенами. Код на гугл-диске (писался и использовался как "живой черновик")

Escherichia coli str. K-12 substr. MG1655

Старт-кодоны

ATG

3874

GTG

338

TTG

80

ATT

4

CTG

2

Кроме ATG используются другие старт-кодоны, отличающихся единственным нуклеотидом. тРНК метионина имеет некоторый шанс связаться с этими кодонами на достаточное для начала синтеза время, и в случае, если падение концентрации белка не критично, такая мутация в старт-кодоне может закрепиться.

Стоп-кодоны

TAA

2753

TAG

305

TGA

1240

Нестандартные положения стоп кодонов интересны: 4 раза они встречаются в псевдогене ... [protein=IS911A regulator fragment] [location=join(270278..270540,271764..272190)], что допустимо для псевдогенов. Но кодон TGA встречается по одному разу в:

[protein=formate dehydrogenase N subunit alpha] [protein_id=AAD13438.1],

[protein=formate dehydrogenase O subunit alpha] [protein_id=AAD13456.1],

[protein=formate dehydrogenase H] [protein_id=AAD13462.1].

В описании всех трех белков содержится [transl_except=(pos:..,aa:Sec)], указывающая на позицию, на которой появился кодон TGA. Поиск по аминокислотным последовательностям белков либо количеству аминокислот ясно дает знать, что на этом кодоне синтез белка не прерывается. Кодон TGA задает у некоторых организмов аминокислоту селеноцистеин, ту же функцию он выполняет в этих белках у E. coli: статья.

Лейцин

TTA

18390

TTG

18243

CTT

14649

CTC

14897

CTA

5176

CTG

71106

Заметна разница в частоте использования кодонов лейцина. Вероятно, что разница между частотами кодонов позволяет поддерживать эволюционно-выгодное соотношение GC пар к AT, которое определяется многими факторами: температурные условия, особенности полимераз, доступность азота. Кроме того, разные тРНК имеют разную концентрацию в цитоплазме и разную прочность связи с кодонами, что влияет на скорость присоединения лейцина, а значит и на скорость синтеза богатых лейцином белков.

GC-skew

График на гугл-диске

Окно с максимумом cumulative GC-skew = 47.733 начинается на 1514001 нуклеотиде

Окно с минимумом cumulative GC-skew = -28.328 начинается на 3871001 нуклеотиде

Минимум cumulative GC-skew располагается вблизи 3925744..3925975, расположение oriC, точки начала репликации. В силу несимметричности процесса репликации кольцевой хромосомы у бактерий на смысловой и антисмысловой цепочках ДНК идут различные процессы. Смысловая цепь более подвержна дезаминированию, переводящему цитозин в тимин, т.к. во-первых она некоторое время в процессе репликации существует в одноцепочечном виде, а во-вторых на ней не проходят процессы репарации дезаминирования. Таким образом, чем дальше от ориджина репликации находится случайно взятый отрезок последовательности, тем больше на смысловой цепи тимина и тем меньше цитозина.

Candidatus Gracilibacteria bacterium 28_42_T64 chromosome

Старт-кодоны

ATG

1121

GTG

41

TTG

23

Стоп-кодоны

TAA

997

TAG

188

TGA

0

Неиспользуемый "по назначению" стоп-кодон TGA встречается 15445 раз во всех последовательностях, так что разобрать все случаи не представляется возможным. Другие два стоп-кодона встречаются несколько раз в псевдогене: ... [protein=DUF1801 domain-containing protein] [location=complement(830617..831077)]. Они могли накопиться в неиспользуемой последовательности из за случайных мутаций.

Кодон TGA, вероятно, очень давно используется как кодон какой-либо аминокислоты (или нескольких), т.к. частота его встречаемости в белок-кодирующих последовательностях высока. При сопоставлении последовательностей, содержащих TGA, с белковыми последовательностями с NCBI, выясняется, что этот кодон кодирует глицин. На сайте NCBI находится статья, подтверждающая это предположение.

Лейцин

TTA

14709

TTG

3217

CTT

9285

CTC

3957

CTA

3342

CTG

1703

Гексамеры

Я выбрал эту бактерию для анализа частоты гексамеров перед белок-кодирующими последовательностями, были получены следующие результаты (в сумме по прямой и по обратной цепям):

......

0

AAAATA

79

ATAATA

80

TTTTAA

82

TTTAAA

82

TATAAA

87

AATAAT

87

ATTTTT

89

TTTTTA

90

TTTTTT

90

AAAAAT

92

TAAATA

95

TAATAA

101

AATAAA

108

ATAAAA

115

AAATAA

116

TAAAAA

124

AAAAAA

133

Видно, что чаще всего встречаются различные комбинации нуклеотидов T и A. Связано это с тем, что для начала транскрипции необходимо разделить двойную цепочку ДНК, а связи между парами AT легче разрываются, чем между GC, и таким образом синтез мРНК идет легче.

Mycoplasma pneumoniae M29 chromosome

Старт-кодоны

ATG

612

GTG

55

TTG

47

ATT

6

CTG

2

TTA

2

ATC

1

Интересно, что здесь встречаются старт-кодоны, обладающие еще меньшей способностью связываться с антикодоном метионина.

Стоп-кодоны

TAA

514

TAG

211

TGA

0

В нестандартных положениях стоп кодоны TAA и TAG встречаются исключительно в псевдогенах, так что эти появления не представляют большого интереса.

Кодон TGA, как и у предыдущей бактерии, используется для кодирования некоторой аминокислоты, конкретно триптофана. Статья.

Лейцин

TTA

9839

TTG

5153

CTT

2542

CTC

2809

CTA

2663

CTG

2278

Users/lkormiltsev/pr13 (последним исправлял пользователь lkormiltsev 2022-12-20 18:42:39)