Kodomo

Пользователь

Отчет по практикуму 13

Ниже представлены результаты практикума 13. По ссылке можно найти скрипты, которые я использовал для выполнения соответствующих заданий: https://drive.google.com/drive/folders/12O36y2QE7t8AziJuvkOebY30EBJyDGxM?usp=share_link

* — для номеров 1–4 код работает для всех трех бактерий, для 5-6 только для одной, но он легко модифицируется под любую другую (в 5 для каждой бактерии свой стиль оформления графика, слишком много отличий; в 6 просто так получилось...)

Первый номер

Вывод программы

Escherichia coli

ATG: 3890

ATT: 4

CTG: 2

GTG: 338

TTC: 1

TTG: 80

Candidatus Gracilibacteria bacterium

ACA: 1

ATG: 1129

GTG: 41

TCA: 1

TCT: 1

TTG: 23

Mycoplasma pneumoniae

AAA: 1

ACA: 1

ACT: 1

ATA: 3

ATC: 1

ATG: 627

ATT: 7

CAA: 1

CAC: 1

CTA: 1

CTC: 3

CTG: 2

GAA: 1

GTG: 60

GTT: 1

TCC: 2

TCT: 1

TGA: 1

TTA: 1

TTC: 1

TTG: 49

Анализ увиденного

Как мы видим, наиболее часто представленным, к счастью, является канонический старт-кодон ATG, что вопросов не вызывает. Вторым по распространению во всех случаях является вариант, отличающийся от ATG на одну мутацию, так что легко предположить, что все отклонения от ATG — это просто мутации. В некоторых случаях речь идет о старт-кодоне в псевдогене, который все равно не экспрессируется, а потому и старт-кодон там может быть любым он (он все равно не нужен). В других случаях экспрессия белков с отличным от каноничного старт-кодоном, вероятно, происходит из-за других последовательностей, которые находятся перед старт-кодоном и влияют на уровень экспрессии. Думаю, они компенсируют тот факт, что старт-кодон не самый похожий. Помимо этого, если мутация одна и незначительная, полимераза наверняка «может не заметить ошибку» и работать нормально.

Второй номер

Вывод программы

lcl|U00096.3_cds_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]

lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]

lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]

lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]

Об этой куче букв

Первый ген — псевдоген, и в нем сразу четыре стоп-кодона: два TAA и два TGA, которые ему не мешают жить, ведь он все равно не экспрессируется.

В остальных трех генах в рамке считывания встречается TGA, но он кодирует не стоп-кодон, а селеноцистеин (и за ним идет особая последовательность нуклеотидов, из-за которой полимераза и воспринимает TGA как селеноцистеин).

Третий номер

Вывод программы

Escherichia coli

TGA: 1246

TAA: 2761

TAG: 306

Candidatus Gracilibacteria bacterium

TGA: 1

TAA: 1000

TAG: 188

Mycoplasma pneumoniae

TGA: 0

TAA: 526

TAG: 220

Чудеса анализа

У второй и третьей бактерий TGA кодирует глицин, а потому не является стоп-кодоном. Например, по тематическому запросу в Google Scholar одним из первых вышло это:

Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE and Strous M (2014) Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front. Microbiol. 5:231. doi: 10.3389/fmicb.2014.00231

Четвертый номер

Вывод программы

Escherichia coli

TTA 18505

TTG 18301

CTA 5203

CTG 71305

CTC 14952

CTT 14728

Candidatus Gracilibacteria bacterium

TTA 33582

TTG 26349

CTA 10064

CTG 75452

CTC 19443

CTT 22781

Mycoplasma pneumoniae

TTA 42828

TTG 32903

CTA 13569

CTG 78506

CTC 21636

CTT 27404

О чем это говорит

У одной и той же бактерии синонимичные кодоны используются с разной частотой, а потому и частоты для разных бактерий (особенно неродственных) будут отличаться. Возможно, это связано с количеством соответствующих транспортных РНК в клетке, что может влиять на конформацию белка (в конце определенного участка белка стоит кодон, для которого мало тРНК, чтобы участок успел принять нужную конформацию — похожая ситуация в триптофановом опероне).

Пятый номер

Вывод программы

Escherichia coli

Ссылка на Google Диск: https://drive.google.com/file/d/1Ui-3glWDlFte0g2GpgPgKGrSkmaRbm-c/view?usp=share_link

Candidatus Gracilibacteria bacterium

Ссылка на Google Диск: https://drive.google.com/file/d/1Yjir9WLFRZqhZcfg37r2BuRi0zUGjEe2/view?usp=share_link

Mycoplasma pneumoniae

Ссылка на Google Диск: https://drive.google.com/file/d/1ZZSrUMlFcZ6Xa6f6p-wxdSS477-EcX7D/view?usp=share_link

Анализ всего и вся

Минимальные и максимальные значения показаны на графиках (из интереса посчитал и построил для всех трех бактерий, мне понравилось делать графики). Минимальное значение соответствует ориджину репликации, а максимальное — концу репликации.

Шестой номер

Вывод программы

Escherichia coli

AAGGAG 329

TAAGGA 280

AGGAGA 255

CAGGAG 255

AAAGGA 224

AAGGAA 221

AGGAGT 215

GGAGAA 205

AGGAAA 187

ACAGGA 178

Candidatus Gracilibacteria bacterium

TAAAAA 185

ATAAAA 183

AAAAAA 178

AATAAA 173

AAATAA 171

TAATAA 147

AAAAAT 145

TTTTAA 135

AAAATA 135

TAAATA 132

Mycoplasma pneumoniae

AATTAA 53

TTTAAA 52

AAAGGA 43

TTAAAA 39

TTAAAC 38

ATTTAA 37

AATTTA 36

ATTAAA 36

TTAATT 35

TAATTA 35

Сказ о k-мерах

Последовательности выше, вероятнее всего, — это последовательности Шайна-Дальгарно — те самые последовательности, которые влияют на уровень экспрессии генов и могут компенсировать тот факт, что в старт-кодоне есть мутации. Последовательность Шайна-Дальгарно обычно расположена на расстоянии 10 нуклеотидов от старт-кодона, с ней на матричной РНК связывается рибосома.

Users/nachatoi/pr13 (последним исправлял пользователь nachatoi 2022-12-18 12:17:24)