Практикум 13
Задание 1
Escherichia coli str. K-12 substr. MG1655
ATG 3883
ATT 4
CTG 2
GTG 334
TTC 1
TTG 78
Candidatus Gracilibacteria bacterium 28_42_T64
ACA 1
ATG 1129
GTG 41
TCA 1
TCT 1
TTG 23
Mycoplasma pneumoniae M29
ACC 2
ATA 2
ATC 3
ATG 634
ATT 4
CTG 4
GTG 62
GTT 1
TTA 2
TTG 40
Большая часть "необычных" стар-кодонов, получаются заменой одного нуклеотида в кодоне ATG. Вероятно эти мутации являются незначительными и не препятствуют инициации. Также старт кодоны, встреченные очень мало раз представлены только в псевдогенах, вероятно исходный старт-кодон был утерян, а то что мы наблюдаем сейчас в качестве "необычных" старт-кодонов находилось внутри кодирующей последовательности
Задание 2
Одна последовательность представляет собой псевдоген, происходящий из генома профага. У профага этот кодон мог кодировать какую-то нестандартную аминокислоту.
Три последовательности кодируют субъединицы формиатдегидрогеназы, в состав которой входит нестандартная аминокислота селеноцистеин, которая кодируется кодоном TGA, после которого идёт особая последовательность нуклеотидов.
Задание 3
Escherichia coli str. K-12 substr. MG1655
TGA 1241
TAA 2756
TAG 303
Candidatus Gracilibacteria bacterium 28_42_T64
TGA 1
TAA 1000
TAG 188
Mycoplasma pneumoniae M29
TGA 0
TAA 531
TAG 210
У Candidatus Gracilibacteria bacterium 28_42_T64 в качестве стоп-кодона TGA был использован 1 раз. Если сравнить частоту использования аминокислот согласно нуклеотидным кодирующим последовательностям и согласно последовательностям белков, то можно заметить, что в первом случае аминокислота глицин (G) встречается 12 408 раз, а во втором случае 27 854 раз. А также последовательности белков содержат 15 445 кодонов TGA, не являющихся стоп-кодонами. Можно предположить, что у данного вида кодон TGA кодирует аминокислоту глицин.
У Mycoplasma pneumoniae M29 в качестве стоп-кодона ни разу не был использован TGA. Если сравнить частоту использования аминокислот согласно нуклеотидным кодирующим последовательностям и согласно последовательностям белков, то можно заметить, что в первом случае аминокислота триптофан (W) встречается 1 544 раз, а во втором случае 3 200 раз. А также последовательности белков содержат 1 656 кодонов TGA, не являющихся стоп-кодонами. Можно предположить, что у данного вида кодон TGA кодирует аминокислоту триптофан.
Возможность подобных переосмыслений кодонов у различных бактерий подтверждается исследованиями:
Hanke, Anna; Hamann, Emmo et al. (2014). "Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat", https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4032931/
Swart, Estienne Carl; Serra, Valentina; Petroni, Giulio; Nowacki, Mariusz (2016). "Genetic Codes with No Dedicated Stop Codon: Context-Dependent Translation Termination", https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4967479/
Непосредственно про Candidatus Gracilibacteria bacterium 28_42_T64 и Mycoplasma pneumoniae M29 в описании на NCBI сказано, что эти бактерии используют нестандартный код, а именно Translation table 25 и Translation table 4 соответственно.
Задание 4
Escherichia coli str. K-12 substr. MG1655
TTA 18 484
TTG 18 283
CTT 14 719
CTC 14 926
CTA 5 201
CTG 71 198
Candidatus Gracilibacteria bacterium 28_42_T64
TTA 14 767
TTG 3 237
CTT 9 333
CTC 3 968
CTA 3 357
CTG 1 714
Mycoplasma pneumoniae M29
TTA 10 302
TTG 5 601
CTT 2 798
CTC 3 161
CTA 2 848
CTG 2 473
Разница частоты используемости разных кодонов обусловлена действием естественного отбора. Также, не исключаю, что это может быть связано с GC-составом генома бактерий.
Задание 5
Минимум cumulative GC-skew соответствует точке начала репликации (oriC), а максимум – точке терминации (ter).
По ссылке доступен график cumulative GC-skew вдоль всего генома и определены приблизительные координаты oriC и ter. На странице бактерии приведены координаты oriC равные 3 925 744 .. 3 925 975, что согласуется с графиком.
Задание 6
Escherichia coli str. K-12 substr. MG1655
AAGGAG 175
TAAGGA 159
TTCCTC 158
GTCCTC 145
TCCTCT 134
ATTCCT 133
AGGAGA 127
AAAGGA 125
AAGGAA 117
TTTCCT 117
Candidatus Gracilibacteria bacterium 28_42_T64
ATTTTT 171
AAAAAA 157
TTTTTT 157
TAAAAA 156
TATTTT 155
TTTTTA 145
AAAAAT 132
ATAAAA 131
TTATTT 130
AAATAA 123
Mycoplasma pneumoniae M29
AATTAA 46
TTTAAA 42
TTAATT 39
AAATTT 38
AAAATT 35
TAATTT 35
TTTTAA 34
AATTTT 32
ATTAAA 32
TAATTA 32
Суммарно
Также я посчитал, встречаемость 6-меров суммарно в трёх геномах, хотя, полагаю, что это довольно глупо, ведь бактерии относятся даже к разным типам.
AAAAAA 269
TTTTTT 268
ATTTTT 258
TAAAAA 252
TTTTTA 233
TATTTT 226
AAATAA 221
AAAAAT 219
TTATTT 217
TTTATT 216
Эти 6-меры представляют собой последовательность Шайна — Дальгарно, которая расположена перед старт-кодоном и необходима для связывания рибосомы с мРНК. В случае Escherichia coli встречаются как последовательности похожие на консенсусную последовательность AGGAGT, так и не очень. В случае двух других бактерий преобладают AT-богатые 6-меры, но в случае Candidatus Gracilibacteria встречаются 6-меры, в которых явно больше одного из нуклеотидов. У Mycoplasma pneumoniae наоборот, A и T внутри одной последовательности встречаются почти поровну. Не исключено, что это различие не случайно.