= Практикум 13 =
Для выполнения заданий были использованы следующие данные из файлов: для Escherichia coli str. K-12 substr. MG1655 (далее E. coli) https://drive.google.com/file/d/1yQUvojCRhhqCqBF7uN_5Z0QdXoZ-JZAK/view?usp=sharing, для Candidatus Gracilibacteria bacterium 28_42_T64 (далее G. bacterium) https://drive.google.com/file/d/1NvdaTm6UeZfQ0RTrfVk3B2YHNllDHNIc/view?usp=sharing и для Mycoplasma pneumoniae M29 (далее M. pneumoniae) https://drive.google.com/file/d/1Zb4zos5MirYZCev5DbAMiLsyhXbrtE2P/view?usp=sharing.
== Задание 1 ==
 
Результаты получены с помощью сценария на Python: https://1drv.ms/u/s!Ap1B-P5CCMWHlEkG-IHD4nSnLqRX?e=w3T0LR

Escherichia coli str. K-12 substr. MG1655:
||ATG |||| 3890 ||
||ATT |||| 4 ||
||CTG |||| 2||
||GTG |||| 338||
||TTG ||||80 ||
|| TTC |||| 1||

Candidatus Gracilibacteria 28_42_T64:
||ACA |||| 1 ||
||ATG ||||1129 ||
||GTG |||| 41||
||TCA ||||1||
||TCT |||| 1||
||TTG |||| 23||

Mycoplasma pneumoniae M29:
||AAA |||| 1||
||ACT|||| 1 ||
||ATA|||| 4 ||
||ATC ||||1 ||
||ATG|||| 629 ||
||ATT|||| 8 ||
||CAA|||| 2 ||
||CTC|||| 2 ||
||CTG ||||1 ||
||GAA ||||1 ||
||GGA|||| 1 ||
||GTG|||| 60 ||
||GTT|||| 1 ||
||TCT|||| 1 ||
||TTA ||||3 ||
||TTG|||| 53 ||

=== Анализ ===
Как мы видим, наиболее часто представленным, является канонический старт-кодон ATG. Кроме того, видно, что GTG и TTG часто служат старт-кодонам. В Reddy et al., 1985 показали, что если у E. coli в гене аденилатциклазы заменить TTG на ATG, экспрессия гена повышается, и штамм становится нежизнеспособным. Причем эти старт-кодоны встречаются не только в генах с 5'-нетранслируемым регионом, но и в генах, где нет специальных инициирующих трансляцию последовательностей вроде Шайна-Дальгарно перед кодирующей частью (Srivastava et al., 2016).Кодон GТG кодирует валин в случае, если он находится внутри кодирующей последовательности, и стартовый метионин, если расположен в начале последовательности. Это происходит потому,
что для инициации трансляции используется специальная транспортная РНК.
== Задание 2 ==

Результаты получены с помощью сценария на Python: https://1drv.ms/u/s!Ap1B-P5CCMWHlEpmGTJ87Jpl6LCw?e=9wtfug

lcl|U00096.3_cds_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]

lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]

lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]

lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
=== Анализ ===

Первый ген — псевдоген, и в нем сразу четыре стоп-кодона: два TAA и два TGA. В остальных трех генах в рамке считывания встречается TGA, но он кодирует не стоп-кодон, а селеноцистеин.

== Задание 3 ==

Результаты получены с помощью сценария на Python: https://1drv.ms/u/s!Ap1B-P5CCMWHlEtsehHER70-cGLz?e=DZI5Ge

Escherichia coli str. K-12 substr. MG1655:

||TAA|||| 2761 ||
|| TGA |||| 1246 ||
||TAG |||| 306||
||ATA |||| 1||
||GAA|||| 1 ||

Candidatus Gracilibacteria 28_42_T64:

||TAA |||| 1000||
||TAG|||| 188 ||
||TCT|||| 2 ||
||AAA ||||1 ||
||ACA|||| 1||
||CTT|||| 1 ||
||GAA|||| 1 ||
||TGA|||| 1 ||
||TTA ||||1 ||

Mycoplasma pneumoniae M29:
||TAA |||| 533||
||TAG|||| 221||
||GGG|||| 4 ||
||AAA||||1 ||
||AAT|||| 1 ||
||ACT|||| 1 ||
||ATA|||| 1 ||
||ATT|||| 1 ||
||CCC ||||1 ||
||GAT ||||1 ||
||GGT|||| 1 ||
||TAC|||| 1 ||
||TAT|||| 1 ||
||TTA|||| 1 ||

=== Анализ ===
Самый частый стоп-кодон TAA у всех трех бактерий. TGA у последних двух бактерий в качестве стоп-кодона не встречается, но внутри последовательности он
присутствует большое количество раз. Литература подтверждает факт о том, что кодон TGA не является стоп-кодоном, а кодирует триптофан[1] у M. pneumoniae, у у G. bacterium - глицин [2]

[1]Weisburg WG, Tully JG, Rose DL, Petzel JP, Oyaizu H, Yang D, et al. (December 1989). "A phylogenetic analysis of the mycoplasmas: basis for their classification". Journal of Bacteriology. 171 (12): 6455–67. doi:10.1128/jb.171.12.6455-6467.1989. PMC 210534. PMID 2592342. (https://digitalcommons.unl.edu/cgi/viewcontent.cgi?referer=https://en.wikipedia.org/&httpsredir=1&article=1315&context=publichealthresources)

[2] Евсютина Дарья Викторовна, стр. 7 
https://istina.msu.ru/download/506363838/1ox2sb:Zt_klB5J1Nrmomwfx2H0fQiU7wQ/?ysclid=lqdxl3wr16790347695

== Задание 4 ==

Результаты получены с помощью сценария на Python: https://1drv.ms/u/s!Ap1B-P5CCMWHlExXC-NhrzBoVX0C?e=a4jAyT

||leu codon ||||E. Coli ||||Gracilibacteria ||||Mycoplasma||
||TTA ||||18505 ||||14766|||| 10307 ||
||TTG|||| 18301 ||||3237|||| 5572||
||CTT ||||14728 ||||9332 ||||2789||
||CTC|||| 14952 ||||3968|||| 3139||
||CTA ||||5203 ||||3357|||| 2852||
||CTG ||||71305|||| 1714|||| 2474||
||всего кодонов|||| 142994|||| 36374 ||||27133||
=== Анализ ===

E. coli наиболее часто встречающимся кодоном, кодирующим лейцин, является CTG. Это может быть связано с предположением о сродстве аминоацил-тРНК-синтетазы, которая присоединяет лейцин к тРНК с антикодоном, комплементарным именно кодону CTG. Такое сродство может обусловить более эффективное использование этого кодона в процессе синтеза белка. Когда речь заходит о Gracilibacteria и Mycoplasma, мы видим отличительные закономерности. В Gracilibacteria наибольшую частоту имеют кодоны TTA, в Mycoplasma также преобладают кодоны TTА. Остальные пять кодонов, кодирующих лейцин, встречаются у них значительно реже. Интересно отметить, что в отличие от кодона TAA, остальные кодоны, кодирующие лейцин, содержат хотя бы один нуклеотид G или C. Исключением являются кодоны CTC и CTG, содержащие по два нуклеотида из G и C, которые встречаются ещё реже, чем кодоны, содержащие 1 нуклеотид из G или C.
Такую закономерность можно объяснить пониженным содержанием гуанина и цитозина в геномах этих бактерий по сравнению с E. coli. 

== Задание 5 ==

Результаты получены с помощью сценария на Python: https://1drv.ms/u/s!Ap1B-P5CCMWHlE2tRk_JbS2E8CRA?e=aDsIOe

Escherichia coli str. K-12 substr. MG1655

Ссылка на график: https://docs.google.com/spreadsheets/d/1oj3Sy97SYIVYEnULuWuijF9rMW62XcIL0qux-ox6a_4/edit?usp=sharing

Минимальное значение соответствует ориджину репликации, а максимальное значение - концу репликации.