Результаты для E. coli
Старт-кодоны
- ATG : 3874
GTG: 338
- TTG: 80
ATT: 4
- CTG: 2
CTG встречается в двух генах, не выделяющихся описанием на фоне остальных:
>lcl|U00096.3_cds_AAC75549.2_2474 [gene=hda] [locus_tag=b2496] [db_xref=UniProtKB/Swiss-Prot:P69931] [protein=inibitor of reinitiation of DNA replication] [protein_id=AAC75549.2] [location=complement(2618075..2618776)] [gbkey=CDS]
>lcl|U00096.3_cds_AAT48144.3_2592 [gene=yfjD] [locus_tag=b4461] [db_xref=UniProtKB/Swiss-Prot:P37908] [protein=UPF0053 family inner membrane protein YfjD] [protein_id=AAT48144.3] [location=2748774..2750060] [gbkey=CDS]
Альтернативные старт-кодоны формируются в результате закрепления точечной мутации в старт-кодоне, которая не вымывается в результате естественного отбора. Такие мутации снижают эффективность протекания трансляции, но в редких случаях это может быть эволюционно выгодно и в результате закрепиться как регуляционная адаптация.
Стоп-кодоны в середине последовательности
Во всех трех последовательностях ниже встречается один и тот же стоп-кодон TGA. Все три белка участвуют в формировании formate дегидрогеназы, первые два вероятно образовались в результате дупликации, т.к. имеют нестандартный кодон в одном и том же месте и различаются по длине на одну аминокислоту.
>lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
>lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
>lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
В источнике указано, что эти кодоны отвечают за селеноцистеин.
Количество стоп-кодонов
- TAA: 2753
TGA: 1240
- TAG: 305
Кодоны лейцина
- CTG: 71106
TTA: 18390
- TTG: 18243
CTT: 14649
- CTC: 14897
CTA: 5176
Частота встречаемости синонимических кодонов завязана на частоту встречаемости соответствующих тРНК в данном организме и регуляцию скорости трансляции гена. Накопление в гене "редких" кодонов приводит к замедлению его трансляции, в то время как накопление "частых" ускоряет этот процесс. Чаще выигрышным оказывается ускорение процесса, поэтому частота кодонов в геноме в целом в первую очередь коррелирует с частотой встречаемости соответствующих тРНК, которая определяется эволюционной историей организма.
Cumulative GC-skew
График в таблицах Максимальный: 47.73 начиная с нуклеотида 1513001 Минимальный: -28.33, начиная с нуклеотида 3870001
На разные цепочки ДНК оказывается разное эволюционное давление по причине несимметричности репликации у прокариот. В результате на одной из цепей теряется цитозин. Сразу после ориджина репликации и до терминатора GCskew положителен, в обратном направлении отрицателен.
гексамеры
- AAGGAG: 327
TAAGGA: 282
Примечательны два гексамера:
- CAGGAG: 254
AGGAGA: 254 Вероятно являются частями одного гептамера, CAGGAGA, т.к. их количество совпадает
Примечательны два гексамера
- AAGGAA: 222
AAAGGA: 222 Вероятно являются частями одного гептамера, AAAGGAA
- AGGAGT: 214
GGAGAA: 204
- AGGAAA: 188
ACAGGA: 177
- GAGGAA: 169
AAAAGG: 150
Можно заметить, что абсолютно доминируют гексамеры состава AG и особняком стоит гептамер CAGGAGA. Вероятно, среди этого разнообазия AG комбинаций множество раз встречаются вариации последовательности Шайна — Дальгарно: AGGAGG.
Результаты для Candidatus Gracilibacteria bacterium
Старт-кодоны
ATG: 1121
- GTG: 41
TTG: 23
Количество стоп-кодонов
TAA: 997
- TAG: 188
TGA: 0
Кодон TGA не используется как стоп-кодон, но встречается огромное число раз в геноме. Согласно источнику, она используется для кодирования глицина. Такие вариации генетического кода должны были сформироваться очень давно или на редуцированном геноме, т.к. на больших геномах "приживание" такого изменения затруднительно.
Кодоны лейцина
- TTA: 14709
CTT: 9285
- CTC: 3957
CTA: 3342
- TTG: 3217
CTG: 1703
Результаты для Mycoplasmoides pneumoniae
Старт-кодоны
ATG: 612
- GTG: 55
TTG: 47
- ATT: 6
Особо редкие старт-кодоны:
- CTG: 2. Два не выделяющихся белка.
>lcl|NZ_CP008895.1_cds_WP_010874434.1_156 [locus_tag=Y923_RS00820] [protein=MFS transporter] [protein_id=WP_010874434.1] [location=complement(168703..170343)] [gbkey=CDS] >lcl|NZ_CP008895.1_cds_WP_225971177.1_224 [locus_tag=Y923_RS04600] [protein=hypothetical protein] [protein_id=WP_225971177.1] [location=248040..248702] [gbkey=CDS]
TTA: 2. Два не выделяющихся белка. >lcl|NZ_CP008895.1_cds_WP_159202570.1_388 [locus_tag=Y923_RS02030] [protein=restriction endonuclease subunit S] [protein_id=WP_159202570.1] [location=425210..425743] [gbkey=CDS] >lcl|NZ_CP008895.1_cds_WP_225971181.1_424 [gene=rpmA] [locus_tag=Y923_RS02260] [protein=50S ribosomal protein L27] [protein_id=WP_225971181.1] [location=463880..464176] [gbkey=CDS]
ATC: 1. Гипотетический белок. Вомзожно, что этот кодон даже не используется как старт-кодон. >lcl|NZ_CP008895.1_cds_WP_200847605.1_693 [locus_tag=Y923_RS03725] [protein=hypothetical protein] [protein_id=WP_200847605.1] [location=complement(784049..784528)] [gbkey=CDS]
Количество стоп-кодонов
TAA: 514
- TAG: 211
TGA: 0
В данном случае кодон TGA используется для кодирования триптофана, как и у многих микоплазм. Скорее всего эту особенность приобрел их общий предок с небольшим геномом. Источник1, источник2.
*Google Таблицы
- Полученный для первой бактерии файл с координатами и значениями cumulative GC skew был импортирован в Гугл Таблицы,на основе чего был построен график.
Код доступен по ссылке
https://docs.google.com/document/d/1k06Wtry6Grxu8fAl4v3QQDISqMy71EH3e0NiK76w_aw/edit?usp=sharing