= Отчет по практикуму 13 = Ниже представлены результаты практикума 13. По ссылке можно найти скрипты, которые я использовал для выполнения соответствующих заданий: https://drive.google.com/drive/folders/12O36y2QE7t8AziJuvkOebY30EBJyDGxM?usp=share_link * — для номеров 1–4 код работает для всех трех бактерий, для 5-6 только для одной, но он легко модифицируется под любую другую (в 5 для каждой бактерии свой стиль оформления графика, слишком много отличий; в 6 просто так получилось...) == Первый номер == === Вывод программы === '''Escherichia coli''' ATG: 3890 ATT: 4 CTG: 2 GTG: 338 TTC: 1 TTG: 80 '''Candidatus ''Gracilibacteria bacterium''''' ACA: 1 ATG: 1129 GTG: 41 TCA: 1 TCT: 1 TTG: 23 '''Mycoplasma pneumoniae''' AAA: 1 ACA: 1 ACT: 1 ATA: 3 ATC: 1 ATG: 627 ATT: 7 CAA: 1 CAC: 1 CTA: 1 CTC: 3 CTG: 2 GAA: 1 GTG: 60 GTT: 1 TCC: 2 TCT: 1 TGA: 1 TTA: 1 TTC: 1 TTG: 49 === Анализ увиденного === Как мы видим, наиболее часто представленным, к счастью, является канонический старт-кодон ATG, что вопросов не вызывает. Вторым по распространению во всех случаях является вариант, отличающийся от ATG на одну мутацию, так что легко предположить, что все отклонения от ATG — это просто мутации. В некоторых случаях речь идет о старт-кодоне в псевдогене, который все равно не экспрессируется, а потому и старт-кодон там может быть любым он (он все равно не нужен). В других случаях экспрессия белков с отличным от каноничного старт-кодоном, вероятно, происходит из-за других последовательностей, которые находятся перед старт-кодоном и влияют на уровень экспрессии. Думаю, они компенсируют тот факт, что старт-кодон не самый похожий. Помимо этого, если мутация одна и незначительная, полимераза наверняка «может не заметить ошибку» и работать нормально. == Второй номер == === Вывод программы === lcl|U00096.3_cds_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS] lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS] lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS] lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS] === Об этой куче букв === Первый ген — псевдоген, и в нем сразу четыре стоп-кодона: два TAA и два TGA, которые ему не мешают жить, ведь он все равно не экспрессируется. В остальных трех генах в рамке считывания встречается TGA, но он кодирует не стоп-кодон, а селеноцистеин (и за ним идет особая последовательность нуклеотидов, из-за которой полимераза и воспринимает TGA как селеноцистеин). == Третий номер == === Вывод программы === '''Escherichia coli''' TGA: 1246 TAA: 2761 TAG: 306 '''Candidatus ''Gracilibacteria bacterium''''' TGA: 1 TAA: 1000 TAG: 188 '''Mycoplasma pneumoniae''' TGA: 0 TAA: 526 TAG: 220 === Чудеса анализа === У второй и третьей бактерий TGA кодирует глицин, а потому не является стоп-кодоном. Например, по тематическому запросу в Google Scholar одним из первых вышло это: Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE and Strous M (2014) Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front. Microbiol. 5:231. doi: 10.3389/fmicb.2014.00231 == Четвертый номер == === Вывод программы === '''Escherichia coli''' TTA 18505 TTG 18301 CTA 5203 CTG 71305 CTC 14952 CTT 14728 '''Candidatus ''Gracilibacteria bacterium''''' TTA 33582 TTG 26349 CTA 10064 CTG 75452 CTC 19443 CTT 22781 '''Mycoplasma pneumoniae''' TTA 42828 TTG 32903 CTA 13569 CTG 78506 CTC 21636 CTT 27404 === О чем это говорит === У одной и той же бактерии синонимичные кодоны используются с разной частотой, а потому и частоты для разных бактерий (особенно неродственных) будут отличаться. Возможно, это связано с количеством соответствующих транспортных РНК в клетке, что может влиять на конформацию белка (в конце определенного участка белка стоит кодон, для которого мало тРНК, чтобы участок успел принять нужную конформацию — похожая ситуация в триптофановом опероне). == Пятый номер == === Вывод программы === '''Escherichia coli''' Ссылка на Google Диск: https://drive.google.com/file/d/1Ui-3glWDlFte0g2GpgPgKGrSkmaRbm-c/view?usp=share_link '''Candidatus ''Gracilibacteria bacterium''''' Ссылка на Google Диск: https://drive.google.com/file/d/1Yjir9WLFRZqhZcfg37r2BuRi0zUGjEe2/view?usp=share_link '''Mycoplasma pneumoniae''' Ссылка на Google Диск: https://drive.google.com/file/d/1ZZSrUMlFcZ6Xa6f6p-wxdSS477-EcX7D/view?usp=share_link === Анализ всего и вся === Минимальные и максимальные значения показаны на графиках (из интереса посчитал и построил для всех трех бактерий, мне понравилось делать графики). Минимальное значение соответствует ориджину репликации, а максимальное — концу репликации. == Шестой номер == === Вывод программы === '''Escherichia coli''' AAGGAG 329 TAAGGA 280 AGGAGA 255 CAGGAG 255 AAAGGA 224 AAGGAA 221 AGGAGT 215 GGAGAA 205 AGGAAA 187 ACAGGA 178 '''Candidatus ''Gracilibacteria bacterium''''' TAAAAA 185 ATAAAA 183 AAAAAA 178 AATAAA 173 AAATAA 171 TAATAA 147 AAAAAT 145 TTTTAA 135 AAAATA 135 TAAATA 132 '''Mycoplasma pneumoniae''' AATTAA 53 TTTAAA 52 AAAGGA 43 TTAAAA 39 TTAAAC 38 ATTTAA 37 AATTTA 36 ATTAAA 36 TTAATT 35 TAATTA 35 === Сказ о k-мерах === Последовательности выше, вероятнее всего, — это последовательности Шайна-Дальгарно — те самые последовательности, которые влияют на уровень экспрессии генов и могут компенсировать тот факт, что в старт-кодоне есть мутации. Последовательность Шайна-Дальгарно обычно расположена на расстоянии 10 нуклеотидов от старт-кодона, с ней на матричной РНК связывается рибосома.