Практикум 14 (или 13, или 12)
Для выполнения заданий были использованы данные о кодирующих последовательностях из представленных ниже файлов.
Для Escherichia coli str. K-12 substr. MG1655:
CDS fasta: https://drive.google.com/file/d/1ddY2mnR35bPMBxDg_1Z9i0nv-M6zuNr0/view?usp=drive_link
Full genome fasta: https://drive.google.com/file/d/1Vz_rcBvAxlBL1T3_Qze8xijUq-u_qzdR/view?usp=drive_link
Full genome genebank: https://drive.google.com/file/d/1o2xB3aBe8Iw0v-ttSEhWisomJWIr677w/view?usp=drive_link
Для Candidatus Gracilibacteria bacterium 28_42_T64: https://drive.google.com/file/d/1kR5LNhdRV3EGoOor58oRfS0h8_kkkCYR/view?usp=drive_link
Для Mycoplasma pneumoniae M29: https://drive.google.com/file/d/1ILWsKG9x4V_tljN0IUWN47ZGCjVvxwo9/view?usp=drive_link
Задание 1
Для выполнения задания 1 был использован следующий код: https://drive.google.com/file/d/1tJtZU-htf47lVs7hVN0i8EksgiDXcjGF/view?usp=drive_link
Escherichia coli str. K-12 substr. MG1655
ATG 3890
GTG 338
TTG 80
ATT 4
CTG 2
TTC 1 (псевдоген LomR)
Candidatus Gracilibacteria bacterium 28_42_T64
ATG 1129
GTG 41
TTG 23
ACA 1 (псевдоген)
TCA 1 (псевдоген serine/threonine protein kinase)
TCT 1 (псевдоген subunit C ATP synthase F0)
Mycoplasma pneumoniae M29
ATG 629
GTG 60
TTG 53
ATT 8
ATA 4 (псевдогены)
TTA 3
CAA 2 (псевдогены)
CTC 2 (псевдогены)
AAA 1 (псевдоген)
ACT 1 (псевдоген)
ATC 1
CTG 1
GAA 1 (псевдоген DUF16 domain-containing protein)
GGA 1
GTT 1 (псевдоген cytadherence protein)
TCT 1 (псевдоген adhesin P1)
Помимо стандартного старт-кодона ATG, часто встречаются GTG и TTG. Они отличаются от ATG всего одним нуклеотидом, поэтому могут появляться в результате точечных мутаций, а белки, инициирующие трансляцию могут узнавать и их тоже. Другие нестандартные старт-кодоны встречаются гораздо реже, и чаще всего в начале псевдогенов. Среди причин, почему они могли окащаться стартовыми следует отметить делецию части последовательности, в связи с чем после утраты стандартного старт-кодона, таковым стал один из следующих за ним, а также сдвиг рамки считывания. Также могут мутировать белки, участвующие в инициации трансляции, после чего они начинают лучше узнавать какие-то другие кодоны вместо ATG, и принимать их за стартовые.
Задание 2
Для выполнения задания 2 был использован следующий код: https://drive.google.com/file/d/1l4Tk1kT7vvn_suRfm17WLzAQTnhIWIQy/view?usp=drive_link
Последовательности с стоп-кодонами не в конце из генома "Escherichia coli str. K-12 substr. MG1655"
lcl|U00096.3_cds_b4587_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment]
[pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
(эта последовательность является псевдогеном, не кодирует белок, поэтому стоп-кодон может находиться не только в конце (так и есть); В ходе единичной делеции или инсерции могла измениться рамка считывания, в связи с чем и возник этот стоп-кодон)
lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N
subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O
subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H]
[transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
(Оставшиеся три последовательности кодируют формиатдегидрогеназы или их субъединицы. Стоп-кодон TGA в этих конкретных белках не терминирует трансляцию за счёт наличия рядом последовательности SECIS, образующей вторичную структуру в мРНК, а кодирует аминокислоту селеноцистеин[1])
Задание 3
Для выполнения задания 3 был использован следующий код: https://drive.google.com/file/d/11YPZxlXpwRqeEVaU3_qt-PBhYeaeFve0/view?usp=drive_link
(принципиально отредактирован относительно загруженного в систему ejudge)
А также: https://drive.google.com/file/d/1aMwxq1cVlU7OVfbiw4DT3wfT8l0Lbqb9/view?usp=drive_link
Escherichia coli str. K-12 substr. MG1655
Частоты стоп-кодонов:
TAA 2761
TGA 1246
TAG 306
ATA 1
GAA 1
Candidatus Gracilibacteria bacterium 28_42_T64
Частоты стоп-кодонов:
TAA 1000
TAG 188
TCT 2
TGA 1
TTA 1
AAA 1
CTT 1
ACA 1
GAA 1
Mycoplasma pneumoniae M29
TAA 533
TAG 221
GGG 4
ACT 1
ATA 1
AAT 1
CCC 1
GGT 1
GAT 1
TAT 1
ATT 1
TAC 1
AAA 1
TTA 1
TGA 0
Так как у второй и третьей бактерии пропал стоп-кодон TGA, можно предположить, что он утратил свою функцию стоп-кодона, и, возможно, кодирует какую-то аминокислоту. Судя по информации в интернете, Candidatus Gracilibacteria bacterium 28_42_T64 это глицин[2], а для Mycoplasma pneumoniae M29 - триптофан[3].
Встречаемость в CDS Candidatus Gracilibacteria bacterium 28_42_T64: TGA 12442
Встречаемость в CDS Mycoplasma pneumoniae M29: TGA 5709
Задание 4
Для выполнения задания 4 был использован следующий код: https://drive.google.com/file/d/1dgCziCj7b-um5KyEJWySq3yAZB0CPso3/view?usp=drive_link
Escherichia coli str. K-12 substr. MG1655
CTG 71305
TTA 18505
TTG 18301
CTC 14952
CTT 14728
CTA 5203
Candidatus Gracilibacteria bacterium 28_42_T64
TTA 14766
CTT 9332
CTC 3968
CTA 3357
TTG 3237
CTG 1714
Mycoplasma pneumoniae M29
TTA 10303
TTG 5572
CTC 3139
CTA 2852
CTT 2789
CTG 2474
Частота разных кодонов, кодирующих лейцин различается как у каждой бактерии, так и между ними. Различие в пределах одной бактерии можно объяснить разным количеством разных тРНК соответсвующих разным кодонам, работой аминоацил-тРНК-синтетаз (разная активность относительно разных тРНК), различной способностью тех или иных пар кодонов-антикодонов к вобблингу, формирование мРНК различных вторичных структур с участием тех или иных кодонов. Различие между бактериями помимо этого связано также с различным GC-составом (видно, что у второй и третьей бактерии самый распространенный кодон - единственный, не содержащий G и С).
Задание 5
Для выполнения задания 5 был использован следующий код: https://drive.google.com/file/d/1TmR7Y1gWcvo9NSrYE9QJUpFPIFtWx-e4/view?usp=drive_link
Данные о GC-skew и cumulative GC-skew для Escherichia coli str. K-12 substr. MG1655
В формате txt: https://drive.google.com/file/d/1d1wrLYpkS7oDZptMViwOI-5wB1nxEzvX/view?usp=drive_link
В гугл таблице с графиком: https://docs.google.com/spreadsheets/d/1xQlldaocFTs8pXXAExeaeROh5Aby1vrCJFiChiDWkQk/edit?usp=drive_link
Согласно найденной в интернете информации минимум cumulative GC-skew соответствует участку на кольцевой хромосоме, где начинается репликация (oriC), а максимум - участку, где она терминируется (ter).
Действительно, согласно файлу в формате genebank, oriC находится на участке 3925744..3925975, что близко к расположению найденного нами минимума cumulative GC-skew (значение в гугл таблице).
Источники
1 - Zesheng Liu, Myriam Reches, Irina Groisman, Hanna Engelberg-Kulka, The nature of the minimal ‘selenocysteine insertion sequence’ (SECIS) in Escherichia coli, Nucleic Acids Research, Volume 26, Issue 4, 1 February 1998, Pages 896–902, https://doi.org/10.1093/nar/26.4.896
2 - Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE, Strous M. Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front Microbiol. 2014 May 16;5:231. doi: 10.3389/fmicb.2014.00231.
3 - Osawa S, Jukes TH, Watanabe K, Muto A. Recent evidence for evolution of the genetic code. Microbiol Rev. 1992 Mar;56(1):229-64. doi: 10.1128/mr.56.1.229-264.1992.