Отчет по практикуму 13
Ниже представлены результаты практикума 13. По ссылке можно найти скрипты, которые я использовал для выполнения соответствующих заданий: https://drive.google.com/drive/folders/12O36y2QE7t8AziJuvkOebY30EBJyDGxM?usp=share_link
* — для номеров 1–4 код работает для всех трех бактерий, для 5-6 только для одной, но он легко модифицируется под любую другую (в 5 для каждой бактерии свой стиль оформления графика, слишком много отличий; в 6 просто так получилось...)
Первый номер
Вывод программы
Escherichia coli
ATG: 3890
ATT: 4
CTG: 2
GTG: 338
TTC: 1
TTG: 80
Candidatus Gracilibacteria bacterium
ACA: 1
ATG: 1129
GTG: 41
TCA: 1
TCT: 1
TTG: 23
Mycoplasma pneumoniae
AAA: 1
ACA: 1
ACT: 1
ATA: 3
ATC: 1
ATG: 627
ATT: 7
CAA: 1
CAC: 1
CTA: 1
CTC: 3
CTG: 2
GAA: 1
GTG: 60
GTT: 1
TCC: 2
TCT: 1
TGA: 1
TTA: 1
TTC: 1
TTG: 49
Анализ увиденного
Как мы видим, наиболее часто представленным, к счастью, является канонический старт-кодон ATG, что вопросов не вызывает. Вторым по распространению во всех случаях является вариант, отличающийся от ATG на одну мутацию, так что легко предположить, что все отклонения от ATG — это просто мутации. В некоторых случаях речь идет о старт-кодоне в псевдогене, который все равно не экспрессируется, а потому и старт-кодон там может быть любым он (он все равно не нужен). В других случаях экспрессия белков с отличным от каноничного старт-кодоном, вероятно, происходит из-за других последовательностей, которые находятся перед старт-кодоном и влияют на уровень экспрессии. Думаю, они компенсируют тот факт, что старт-кодон не самый похожий. Помимо этого, если мутация одна и незначительная, полимераза наверняка «может не заметить ошибку» и работать нормально.
Второй номер
Вывод программы
lcl|U00096.3_cds_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
Об этой куче букв
Первый ген — псевдоген, и в нем сразу четыре стоп-кодона: два TAA и два TGA, которые ему не мешают жить, ведь он все равно не экспрессируется.
В остальных трех генах в рамке считывания встречается TGA, но он кодирует не стоп-кодон, а селеноцистеин (и за ним идет особая последовательность нуклеотидов, из-за которой полимераза и воспринимает TGA как селеноцистеин).
Третий номер
Вывод программы
Escherichia coli
TGA: 1246
TAA: 2761
TAG: 306
Candidatus Gracilibacteria bacterium
TGA: 1
TAA: 1000
TAG: 188
Mycoplasma pneumoniae
TGA: 0
TAA: 526
TAG: 220
Чудеса анализа
У второй и третьей бактерий TGA кодирует глицин, а потому не является стоп-кодоном. Например, по тематическому запросу в Google Scholar одним из первых вышло это:
Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE and Strous M (2014) Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front. Microbiol. 5:231. doi: 10.3389/fmicb.2014.00231
Четвертый номер
Вывод программы
Escherichia coli
TTA 18505
TTG 18301
CTA 5203
CTG 71305
CTC 14952
CTT 14728
Candidatus Gracilibacteria bacterium
TTA 33582
TTG 26349
CTA 10064
CTG 75452
CTC 19443
CTT 22781
Mycoplasma pneumoniae
TTA 42828
TTG 32903
CTA 13569
CTG 78506
CTC 21636
CTT 27404
О чем это говорит
У одной и той же бактерии синонимичные кодоны используются с разной частотой, а потому и частоты для разных бактерий (особенно неродственных) будут отличаться. Возможно, это связано с количеством соответствующих транспортных РНК в клетке, что может влиять на конформацию белка (в конце определенного участка белка стоит кодон, для которого мало тРНК, чтобы участок успел принять нужную конформацию — похожая ситуация в триптофановом опероне).
Пятый номер
Вывод программы
Escherichia coli
Ссылка на Google Диск: https://drive.google.com/file/d/1Ui-3glWDlFte0g2GpgPgKGrSkmaRbm-c/view?usp=share_link
Candidatus Gracilibacteria bacterium
Ссылка на Google Диск: https://drive.google.com/file/d/1Yjir9WLFRZqhZcfg37r2BuRi0zUGjEe2/view?usp=share_link
Mycoplasma pneumoniae
Ссылка на Google Диск: https://drive.google.com/file/d/1ZZSrUMlFcZ6Xa6f6p-wxdSS477-EcX7D/view?usp=share_link
Анализ всего и вся
Минимальные и максимальные значения показаны на графиках (из интереса посчитал и построил для всех трех бактерий, мне понравилось делать графики). Минимальное значение соответствует ориджину репликации, а максимальное — концу репликации.
Шестой номер
Вывод программы
Escherichia coli
AAGGAG 329
TAAGGA 280
AGGAGA 255
CAGGAG 255
AAAGGA 224
AAGGAA 221
AGGAGT 215
GGAGAA 205
AGGAAA 187
ACAGGA 178
Candidatus Gracilibacteria bacterium
TAAAAA 185
ATAAAA 183
AAAAAA 178
AATAAA 173
AAATAA 171
TAATAA 147
AAAAAT 145
TTTTAA 135
AAAATA 135
TAAATA 132
Mycoplasma pneumoniae
AATTAA 53
TTTAAA 52
AAAGGA 43
TTAAAA 39
TTAAAC 38
ATTTAA 37
AATTTA 36
ATTAAA 36
TTAATT 35
TAATTA 35
Сказ о k-мерах
Последовательности выше, вероятнее всего, — это последовательности Шайна-Дальгарно — те самые последовательности, которые влияют на уровень экспрессии генов и могут компенсировать тот факт, что в старт-кодоне есть мутации. Последовательность Шайна-Дальгарно обычно расположена на расстоянии 10 нуклеотидов от старт-кодона, с ней на матричной РНК связывается рибосома.