Задачи выполнялись при помощи Python. Старт-кодоны и стоп-кодоны исследовались у последовательностей, не являющихся псевдогенами. Код на гугл-диске (писался и использовался как "живой черновик")
Escherichia coli str. K-12 substr. MG1655
Старт-кодоны
ATG |
3874 |
GTG |
338 |
TTG |
80 |
ATT |
4 |
CTG |
2 |
Кроме ATG используются другие старт-кодоны, отличающихся единственным нуклеотидом. тРНК метионина имеет некоторый шанс связаться с этими кодонами на достаточное для начала синтеза время, и в случае, если падение концентрации белка не критично, такая мутация в старт-кодоне может закрепиться.
Стоп-кодоны
TAA |
2753 |
TAG |
305 |
TGA |
1240 |
Нестандартные положения стоп кодонов интересны: 4 раза они встречаются в псевдогене ... [protein=IS911A regulator fragment] [location=join(270278..270540,271764..272190)], что допустимо для псевдогенов. Но кодон TGA встречается по одному разу в:
[protein=formate dehydrogenase N subunit alpha] [protein_id=AAD13438.1],
[protein=formate dehydrogenase O subunit alpha] [protein_id=AAD13456.1],
[protein=formate dehydrogenase H] [protein_id=AAD13462.1].
В описании всех трех белков содержится [transl_except=(pos:..,aa:Sec)], указывающая на позицию, на которой появился кодон TGA. Поиск по аминокислотным последовательностям белков либо количеству аминокислот ясно дает знать, что на этом кодоне синтез белка не прерывается. Кодон TGA задает у некоторых организмов аминокислоту селеноцистеин, ту же функцию он выполняет в этих белках у E. coli: статья.
Лейцин
TTA |
18390 |
TTG |
18243 |
CTT |
14649 |
CTC |
14897 |
CTA |
5176 |
CTG |
71106 |
Заметна разница в частоте использования кодонов лейцина. Вероятно, что разница между частотами кодонов позволяет поддерживать эволюционно-выгодное соотношение GC пар к AT, которое определяется многими факторами: температурные условия, особенности полимераз, доступность азота. Кроме того, разные тРНК имеют разную концентрацию в цитоплазме и разную прочность связи с кодонами, что влияет на скорость присоединения лейцина, а значит и на скорость синтеза богатых лейцином белков.
GC-skew
Окно с максимумом cumulative GC-skew = 47.733 начинается на 1514001 нуклеотиде
Окно с минимумом cumulative GC-skew = -28.328 начинается на 3871001 нуклеотиде
Минимум cumulative GC-skew располагается вблизи 3925744..3925975, расположение oriC, точки начала репликации. В силу несимметричности процесса репликации кольцевой хромосомы у бактерий на смысловой и антисмысловой цепочках ДНК идут различные процессы. Смысловая цепь более подвержна дезаминированию, переводящему цитозин в тимин, т.к. во-первых она некоторое время в процессе репликации существует в одноцепочечном виде, а во-вторых на ней не проходят процессы репарации дезаминирования. Таким образом, чем дальше от ориджина репликации находится случайно взятый отрезок последовательности, тем больше на смысловой цепи тимина и тем меньше цитозина.
Candidatus Gracilibacteria bacterium 28_42_T64 chromosome
Старт-кодоны
ATG |
1121 |
GTG |
41 |
TTG |
23 |
Стоп-кодоны
TAA |
997 |
TAG |
188 |
TGA |
0 |
Неиспользуемый "по назначению" стоп-кодон TGA встречается 15445 раз во всех последовательностях, так что разобрать все случаи не представляется возможным. Другие два стоп-кодона встречаются несколько раз в псевдогене: ... [protein=DUF1801 domain-containing protein] [location=complement(830617..831077)]. Они могли накопиться в неиспользуемой последовательности из за случайных мутаций.
Кодон TGA, вероятно, очень давно используется как кодон какой-либо аминокислоты (или нескольких), т.к. частота его встречаемости в белок-кодирующих последовательностях высока. При сопоставлении последовательностей, содержащих TGA, с белковыми последовательностями с NCBI, выясняется, что этот кодон кодирует глицин. На сайте NCBI находится статья, подтверждающая это предположение.
Лейцин
TTA |
14709 |
TTG |
3217 |
CTT |
9285 |
CTC |
3957 |
CTA |
3342 |
CTG |
1703 |
Гексамеры
Я выбрал эту бактерию для анализа частоты гексамеров перед белок-кодирующими последовательностями, были получены следующие результаты (в сумме по прямой и по обратной цепям):
...... |
0 |
AAAATA |
79 |
ATAATA |
80 |
TTTTAA |
82 |
TTTAAA |
82 |
TATAAA |
87 |
AATAAT |
87 |
ATTTTT |
89 |
TTTTTA |
90 |
TTTTTT |
90 |
AAAAAT |
92 |
TAAATA |
95 |
TAATAA |
101 |
AATAAA |
108 |
ATAAAA |
115 |
AAATAA |
116 |
TAAAAA |
124 |
AAAAAA |
133 |
Видно, что чаще всего встречаются различные комбинации нуклеотидов T и A. Связано это с тем, что для начала транскрипции необходимо разделить двойную цепочку ДНК, а связи между парами AT легче разрываются, чем между GC, и таким образом синтез мРНК идет легче.
Mycoplasma pneumoniae M29 chromosome
Старт-кодоны
ATG |
612 |
GTG |
55 |
TTG |
47 |
ATT |
6 |
CTG |
2 |
TTA |
2 |
ATC |
1 |
Интересно, что здесь встречаются старт-кодоны, обладающие еще меньшей способностью связываться с антикодоном метионина.
Стоп-кодоны
TAA |
514 |
TAG |
211 |
TGA |
0 |
В нестандартных положениях стоп кодоны TAA и TAG встречаются исключительно в псевдогенах, так что эти появления не представляют большого интереса.
Кодон TGA, как и у предыдущей бактерии, используется для кодирования некоторой аминокислоты, конкретно триптофана. Статья.
Лейцин
TTA |
9839 |
TTG |
5153 |
CTT |
2542 |
CTC |
2809 |
CTA |
2663 |
CTG |
2278 |