Kodomo

Пользователь

Практикум 14 (или 13, или 12)

Для выполнения заданий были использованы данные о кодирующих последовательностях из представленных ниже файлов.

Для Escherichia coli str. K-12 substr. MG1655:

CDS fasta: https://drive.google.com/file/d/1ddY2mnR35bPMBxDg_1Z9i0nv-M6zuNr0/view?usp=drive_link

Full genome fasta: https://drive.google.com/file/d/1Vz_rcBvAxlBL1T3_Qze8xijUq-u_qzdR/view?usp=drive_link

Full genome genebank: https://drive.google.com/file/d/1o2xB3aBe8Iw0v-ttSEhWisomJWIr677w/view?usp=drive_link

Для Candidatus Gracilibacteria bacterium 28_42_T64: https://drive.google.com/file/d/1kR5LNhdRV3EGoOor58oRfS0h8_kkkCYR/view?usp=drive_link

Для Mycoplasma pneumoniae M29: https://drive.google.com/file/d/1ILWsKG9x4V_tljN0IUWN47ZGCjVvxwo9/view?usp=drive_link

Задание 1

Для выполнения задания 1 был использован следующий код: https://drive.google.com/file/d/1tJtZU-htf47lVs7hVN0i8EksgiDXcjGF/view?usp=drive_link

Escherichia coli str. K-12 substr. MG1655

ATG 3890

GTG 338

TTG 80

ATT 4

CTG 2

TTC 1 (псевдоген LomR)

Candidatus Gracilibacteria bacterium 28_42_T64

ATG 1129

GTG 41

TTG 23

ACA 1 (псевдоген)

TCA 1 (псевдоген serine/threonine protein kinase)

TCT 1 (псевдоген subunit C ATP synthase F0)

Mycoplasma pneumoniae M29

ATG 629

GTG 60

TTG 53

ATT 8

ATA 4 (псевдогены)

TTA 3

CAA 2 (псевдогены)

CTC 2 (псевдогены)

AAA 1 (псевдоген)

ACT 1 (псевдоген)

ATC 1

CTG 1

GAA 1 (псевдоген DUF16 domain-containing protein)

GGA 1

GTT 1 (псевдоген cytadherence protein)

TCT 1 (псевдоген adhesin P1)

Помимо стандартного старт-кодона ATG, часто встречаются GTG и TTG. Они отличаются от ATG всего одним нуклеотидом, поэтому могут появляться в результате точечных мутаций, а белки, инициирующие трансляцию могут узнавать и их тоже. Другие нестандартные старт-кодоны встречаются гораздо реже, и чаще всего в начале псевдогенов. Среди причин, почему они могли окащаться стартовыми следует отметить делецию части последовательности, в связи с чем после утраты стандартного старт-кодона, таковым стал один из следующих за ним, а также сдвиг рамки считывания. Также могут мутировать белки, участвующие в инициации трансляции, после чего они начинают лучше узнавать какие-то другие кодоны вместо ATG, и принимать их за стартовые.

Задание 2

Для выполнения задания 2 был использован следующий код: https://drive.google.com/file/d/1l4Tk1kT7vvn_suRfm17WLzAQTnhIWIQy/view?usp=drive_link

Последовательности с стоп-кодонами не в конце из генома "Escherichia coli str. K-12 substr. MG1655"

lcl|U00096.3_cds_b4587_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment]

[pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]

(эта последовательность является псевдогеном, не кодирует белок, поэтому стоп-кодон может находиться не только в конце (так и есть); В ходе единичной делеции или инсерции могла измениться рамка считывания, в связи с чем и возник этот стоп-кодон)

lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N

subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]

lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O

subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]

lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H]

[transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]

(Оставшиеся три последовательности кодируют формиатдегидрогеназы или их субъединицы. Стоп-кодон TGA в этих конкретных белках не терминирует трансляцию за счёт наличия рядом последовательности SECIS, образующей вторичную структуру в мРНК, а кодирует аминокислоту селеноцистеин[1])

Задание 3

Для выполнения задания 3 был использован следующий код: https://drive.google.com/file/d/11YPZxlXpwRqeEVaU3_qt-PBhYeaeFve0/view?usp=drive_link

(принципиально отредактирован относительно загруженного в систему ejudge)

А также: https://drive.google.com/file/d/1aMwxq1cVlU7OVfbiw4DT3wfT8l0Lbqb9/view?usp=drive_link

Escherichia coli str. K-12 substr. MG1655

Частоты стоп-кодонов:

TAA 2761

TGA 1246

TAG 306

ATA 1

GAA 1

Candidatus Gracilibacteria bacterium 28_42_T64

Частоты стоп-кодонов:

TAA 1000

TAG 188

TCT 2

TGA 1

TTA 1

AAA 1

CTT 1

ACA 1

GAA 1

Mycoplasma pneumoniae M29

TAA 533

TAG 221

GGG 4

ACT 1

ATA 1

AAT 1

CCC 1

GGT 1

GAT 1

TAT 1

ATT 1

TAC 1

AAA 1

TTA 1

TGA 0

Так как у второй и третьей бактерии пропал стоп-кодон TGA, можно предположить, что он утратил свою функцию стоп-кодона, и, возможно, кодирует какую-то аминокислоту. Судя по информации в интернете, Candidatus Gracilibacteria bacterium 28_42_T64 это глицин[2], а для Mycoplasma pneumoniae M29 - триптофан[3].

Встречаемость в CDS Candidatus Gracilibacteria bacterium 28_42_T64: TGA 12442

Встречаемость в CDS Mycoplasma pneumoniae M29: TGA 5709

Задание 4

Для выполнения задания 4 был использован следующий код: https://drive.google.com/file/d/1dgCziCj7b-um5KyEJWySq3yAZB0CPso3/view?usp=drive_link

Escherichia coli str. K-12 substr. MG1655

CTG 71305

TTA 18505

TTG 18301

CTC 14952

CTT 14728

CTA 5203

Candidatus Gracilibacteria bacterium 28_42_T64

TTA 14766

CTT 9332

CTC 3968

CTA 3357

TTG 3237

CTG 1714

Mycoplasma pneumoniae M29

TTA 10303

TTG 5572

CTC 3139

CTA 2852

CTT 2789

CTG 2474

Частота разных кодонов, кодирующих лейцин различается как у каждой бактерии, так и между ними. Различие в пределах одной бактерии можно объяснить разным количеством разных тРНК соответсвующих разным кодонам, работой аминоацил-тРНК-синтетаз (разная активность относительно разных тРНК), различной способностью тех или иных пар кодонов-антикодонов к вобблингу, формирование мРНК различных вторичных структур с участием тех или иных кодонов. Различие между бактериями помимо этого связано также с различным GC-составом (видно, что у второй и третьей бактерии самый распространенный кодон - единственный, не содержащий G и С).

Задание 5

Для выполнения задания 5 был использован следующий код: https://drive.google.com/file/d/1TmR7Y1gWcvo9NSrYE9QJUpFPIFtWx-e4/view?usp=drive_link

Данные о GC-skew и cumulative GC-skew для Escherichia coli str. K-12 substr. MG1655

В формате txt: https://drive.google.com/file/d/1d1wrLYpkS7oDZptMViwOI-5wB1nxEzvX/view?usp=drive_link

В гугл таблице с графиком: https://docs.google.com/spreadsheets/d/1xQlldaocFTs8pXXAExeaeROh5Aby1vrCJFiChiDWkQk/edit?usp=drive_link

Согласно найденной в интернете информации минимум cumulative GC-skew соответствует участку на кольцевой хромосоме, где начинается репликация (oriC), а максимум - участку, где она терминируется (ter).

Действительно, согласно файлу в формате genebank, oriC находится на участке 3925744..3925975, что близко к расположению найденного нами минимума cumulative GC-skew (значение в гугл таблице).

Источники

1 - Zesheng Liu, Myriam Reches, Irina Groisman, Hanna Engelberg-Kulka, The nature of the minimal ‘selenocysteine insertion sequence’ (SECIS) in Escherichia coli, Nucleic Acids Research, Volume 26, Issue 4, 1 February 1998, Pages 896–902, https://doi.org/10.1093/nar/26.4.896

2 - Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE, Strous M. Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front Microbiol. 2014 May 16;5:231. doi: 10.3389/fmicb.2014.00231.

3 - Osawa S, Jukes TH, Watanabe K, Muto A. Recent evidence for evolution of the genetic code. Microbiol Rev. 1992 Mar;56(1):229-64. doi: 10.1128/mr.56.1.229-264.1992.

Users/lev.g/pr12 (последним исправлял пользователь lev.g 2023-12-21 15:18:05)