= Практикум 13 =
== Задание 1 ==
||  ||  '''Результаты''' ||
|| Escherichia coli str. K-12 substr. MG1655 || ATG 3883 ATT 4 CTG 2 GTG 334 TTC 1 TTG 78 ||
|| Candidatus Gracilibacteria bacterium 28_42_T64 || ACA 1 ATG 1129 GTG 41 TCA 1 TCT 1 TTG 23 ||
|| Mycoplasma pneumoniae M29 || ACC 2 ATA 2 ATC 3 ATG 634 ATT 4 CTG 4 GTG 62 GTT 1 TTA 2 TTG 40 ||


У всех бактерий ATG старт кодон встречается наиболее часто. Следующим по встречаемости был кодон GTG, а после него - TTG. Они отличаются от ATG всего одним нуклеотидом. Большинство кодонов, встретившихся только один раз, согласно описанию начинают цепочки псевдогенов. И всё-таки не только ATG может быть старт кодоном. Попробую предположить из-за чего это происходит. Возможно, это происходит из-за того, что:

- участок кодирующей последовательности с ATG был утрачен, и стартовыми стали следующие за ним

- у бактерий функциональной единицей генома является оперон, то есть последовательности, кодирующие белки для одного процесса, объединены одним промотором, и тогда другие старт кодоны тоже оказываются удобны

- есть влияние тРНК, может, независимо от старт кодона, первая тРНК доставит к месту синтеза метионин

- малая субъединица рибосомы прикрепляются к последовательности мРНК несколько раньше положения старт кодона, и тогда рамка считывания варьируется

- изменение рамки считывания для контроля механизма транскрипции, например, присутствует внутренняя инициация для получения ещё одного продукта

- есть факторы, подавляющие ATG инициацию

- белки, контролирующие транскрипция, способны распознавать не только ATG как старт кодон

== Задание 2 ==
==== Результаты ====
|| 1 || lcl|U00096.3_cds_249 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS] ||
|| 2 || lcl|U00096.3_cds_AAD13438.1_1457 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS] ||
|| 3 || lcl|U00096.3_cds_AAD13456.1_3815 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS] ||
||4 || lcl|U00096.3_cds_AAD13462.1_3987 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS] ||
У первой бактерии нашлось 4 такие последовательности. Согласно описанию, первая из них является псевдогеном, то есть не кодирует полипептид и рамка считывания сбита, поэтому стоп кодон встретился не в конце; вторая последовательность кодирует белок не целиком, а только его часть (subunit), думаю, поэтому синтез прерывается раньше. Оставшиеся две последовательности кодируют белки, но информация о них лежит на комплементарной цепи, где стоп кодонам соответствуют кодоны, кодирующие Ile или Thr.

== Задание 3 ==
|| || Escherichia coli str. K-12 substr. MG1655 || Candidatus Gracilibacteria bacterium 28_42_T64 || Mycoplasma pneumoniae M29 ||
|| TGA || 1241 || 1 || 0 ||
|| TAA || 2756 || 1000 || 531 ||
|| TAG|| 303 || 188 || 210 ||

У второй бактерии TGA встретился в конце кодирующей последовательности только 1 раз, а у третьей бактерии он не встретился вовсе. Но если целенаправленно искать именно этот кодон, в результате будет большое число позиций не в конце цепи. Значит, можно предположить, что у них TGA не является стоп кодоном, а кодирует аминокислоту, а также, значит, есть соответствующие тРНК, которые распознают этот триплет. Подтверждения этому можно найти [[ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6851277/ | здесь]] для второй бактерии и [[ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC208464/ | здесь]] для третьей бактерии. У второй бактерии TGA кодирует глицин, а у третьей - триптофан.

== Задание 4 ==
|| || Escherichia coli str. K-12 substr. MG1655 || Candidatus Gracilibacteria bacterium 28_42_T64 || Mycoplasma pneumoniae M29 ||
|| TTA || 18484 || 14767 || 10302 ||
|| TTG || 18283 || 3237 || 5601 ||
|| CTT || 14719 || 9333 || 2798 ||
|| CTC || 14926 || 3968 || 3161 ||
|| CTA || 5201 || 3357 || 2848 ||
|| CTG || 71198 || 1714 || 2473 ||
Полученные результаты свидетельствуют о том, что в ДНК каждой бактерии есть тенденция к использованию только одного кодона и избегание других, хотя всего кодонов, кодирующих лейцин, шесть. Но среди разных бактерий кодоны, которых больше всего, различны. Попробую предположить, что в пределах одной бактерии разница в частоте использования кодонов обусловлена тем, что использование одного кодона ускоряет процесс синтеза белка, так как требуются одни и те же тРНК. В пределах разных бактерий это может быть вызвано отбором и тем, каких нуклеотидов в данных условиях было больше.

== Задание 5 ==
Результаты: [[ https://docs.google.com/spreadsheets/d/1JTiPhFwbJEcPb4sk3lMz5W4wPWdp-W8PWm37k8vEljg/edit?usp=sharing | График зависимости]]
На первом листе находится таблица с результатом работы программы и расчётами, на втором - график.
Минимум cumulative GC-skew соответствует месту начала репликации (oriC), а максимум - месту конца репликации (ter). 
У данной бактерии минимальное значение cumulative GC-skew равно -28,328 и соответствует 3 870 000 позиции, максимальное значение равно 47, 733 и соответствует 1 513 000 позиции. Примерно там же находятся oriC и ter, что соответствует данным из с [[ https://www.ncbi.nlm.nih.gov/nuccore/U00096.3?report=gbwithparts&log$=seqview | ресурса]].

Источники: Lu J, Salzberg SL (2020) SkewIT: The Skew Index Test for large-scale GC Skew analysis of bacterial genomes. PLOS Computational Biology 16(12): e1008439. https://doi.org/10.1371/journal.pcbi.1008439

Arakawa K, Tomita M. The GC skew index: a measure of genomic compositional asymmetry and the degree of replicational selection. Evol Bioinform Online. 2007 Sep 6;3:159-68. PMID: 19461976; PMCID: PMC2684130.

== Задание 6 ==
[[ https://docs.google.com/spreadsheets/d/1k5Gs8jlPX5rbLPb-1LsmPecqa23GTQEezpxGtnfgnxM/edit?usp=sharing| Таблицы с результатами]]

(скрипт, считающий 6-меры, сохранён в блокноте colab)

Чаще всего встретились 6-меры, в основном содержащие нуклеотиды A и T. Затрудняюсь сказать с чём это связано, но из-за того, что данные 6-меры считались в небольшом промежутке до старт кодона, предположу, что это связано с регуляцией транскрипции, возможно, при большом количестве нуклеотидов A и T легче разъединить цепочки ДНК, так как нуклеотиды A и T соединены только двумя водородными связями, в то время как G и C - тремя.