= Отчет по практикуму 13 =

Ниже представлены результаты практикума 13. По ссылке можно найти скрипты, которые я использовал для выполнения соответствующих заданий: https://drive.google.com/drive/folders/12O36y2QE7t8AziJuvkOebY30EBJyDGxM?usp=share_link 

* — для номеров 1–4 код работает для всех трех бактерий, для 5-6 только для одной, но он легко модифицируется под любую другую (в 5 для каждой бактерии свой стиль оформления графика, слишком много отличий; в 6 просто так получилось...)

== Первый номер ==

=== Вывод программы ===

'''Escherichia coli'''

ATG: 3890

ATT: 4

CTG: 2

GTG: 338

TTC: 1

TTG: 80

'''Candidatus ''Gracilibacteria bacterium'''''

ACA: 1

ATG: 1129

GTG: 41

TCA: 1

TCT: 1

TTG: 23

'''Mycoplasma pneumoniae'''

AAA: 1

ACA: 1

ACT: 1

ATA: 3

ATC: 1

ATG: 627

ATT: 7

CAA: 1

CAC: 1

CTA: 1

CTC: 3

CTG: 2

GAA: 1

GTG: 60

GTT: 1

TCC: 2

TCT: 1

TGA: 1

TTA: 1

TTC: 1

TTG: 49

=== Анализ увиденного ===

Как мы видим, наиболее часто представленным, к счастью, является канонический старт-кодон ATG, что вопросов не вызывает. Вторым по распространению во всех случаях является вариант, отличающийся от ATG на одну мутацию, так что легко предположить, что все отклонения от ATG — это просто мутации. В некоторых случаях речь идет о старт-кодоне в псевдогене, который все равно не экспрессируется, а потому и старт-кодон там может быть любым он (он все равно не нужен). В других случаях экспрессия белков с отличным от каноничного старт-кодоном, вероятно, происходит из-за других последовательностей, которые находятся перед старт-кодоном и влияют на уровень экспрессии. Думаю, они компенсируют тот факт, что старт-кодон не самый похожий. Помимо этого, если мутация одна и незначительная, полимераза наверняка «может не заметить ошибку» и работать нормально. 

== Второй номер ==

=== Вывод программы ===

lcl|U00096.3_cds_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]

lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]

lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]

lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]

=== Об этой куче букв ===

Первый ген — псевдоген, и в нем сразу четыре стоп-кодона: два TAA и два TGA, которые ему не мешают жить, ведь он все равно не экспрессируется. 

В остальных трех генах в рамке считывания встречается TGA, но он кодирует не стоп-кодон, а селеноцистеин (и за ним идет особая последовательность нуклеотидов, из-за которой полимераза и воспринимает TGA как селеноцистеин). 

== Третий номер ==

=== Вывод программы ===

'''Escherichia coli'''

TGA: 1246

TAA: 2761

TAG: 306

'''Candidatus ''Gracilibacteria bacterium'''''

TGA: 1

TAA: 1000

TAG: 188

'''Mycoplasma pneumoniae'''

TGA: 0

TAA: 526

TAG: 220

=== Чудеса анализа ===

У второй и третьей бактерий TGA кодирует глицин, а потому не является стоп-кодоном. Например, по тематическому запросу в Google Scholar одним из первых вышло это:

Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE and Strous M (2014) Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front. Microbiol. 5:231. doi: 10.3389/fmicb.2014.00231 

== Четвертый номер ==

=== Вывод программы ===

'''Escherichia coli'''

TTA 18505

TTG 18301

CTA 5203

CTG 71305

CTC 14952

CTT 14728

'''Candidatus ''Gracilibacteria bacterium'''''

TTA 33582

TTG 26349

CTA 10064

CTG 75452

CTC 19443

CTT 22781

'''Mycoplasma pneumoniae'''

TTA 42828

TTG 32903

CTA 13569

CTG 78506

CTC 21636

CTT 27404

=== О чем это говорит ===

У одной и той же бактерии синонимичные кодоны используются с разной частотой, а потому и частоты для разных бактерий (особенно неродственных) будут отличаться. Возможно, это связано с количеством соответствующих транспортных РНК в клетке, что может влиять на конформацию белка (в конце определенного участка белка стоит кодон, для которого мало тРНК, чтобы участок успел принять нужную конформацию — похожая ситуация в триптофановом опероне). 

== Пятый номер ==

=== Вывод программы ===

'''Escherichia coli'''

Ссылка на Google Диск: https://drive.google.com/file/d/1Ui-3glWDlFte0g2GpgPgKGrSkmaRbm-c/view?usp=share_link

'''Candidatus ''Gracilibacteria bacterium'''''

Ссылка на Google Диск: https://drive.google.com/file/d/1Yjir9WLFRZqhZcfg37r2BuRi0zUGjEe2/view?usp=share_link

'''Mycoplasma pneumoniae'''

Ссылка на Google Диск: https://drive.google.com/file/d/1ZZSrUMlFcZ6Xa6f6p-wxdSS477-EcX7D/view?usp=share_link

=== Анализ всего и вся ===

Минимальные и максимальные значения показаны на графиках (из интереса посчитал и построил для всех трех бактерий, мне понравилось делать графики). Минимальное значение соответствует ориджину репликации, а максимальное — концу репликации.  

== Шестой номер ==

=== Вывод программы ===

'''Escherichia coli'''

AAGGAG 329

TAAGGA 280

AGGAGA 255

CAGGAG 255

AAAGGA 224

AAGGAA 221

AGGAGT 215

GGAGAA 205

AGGAAA 187

ACAGGA 178

'''Candidatus ''Gracilibacteria bacterium'''''

TAAAAA 185

ATAAAA 183

AAAAAA 178

AATAAA 173

AAATAA 171

TAATAA 147

AAAAAT 145

TTTTAA 135

AAAATA 135

TAAATA 132

'''Mycoplasma pneumoniae'''

AATTAA 53

TTTAAA 52

AAAGGA 43

TTAAAA 39

TTAAAC 38

ATTTAA 37

AATTTA 36

ATTAAA 36

TTAATT 35

TAATTA 35

=== Сказ о k-мерах ===

Последовательности выше, вероятнее всего, — это последовательности Шайна-Дальгарно — те самые последовательности, которые влияют на уровень экспрессии генов и могут компенсировать тот факт, что в старт-кодоне есть мутации. Последовательность Шайна-Дальгарно обычно расположена на расстоянии 10 нуклеотидов от старт-кодона, с ней на матричной РНК связывается рибосома.