Задание №1
Escherichia coli str. K-12 substr. MG1655
Встречаются следующие старт-кодоны:
ATG - 3883
ATT - 4
CTG - 2
GTG - 334
TTC - 1
TTG - 78
Candidatus Gracilibacteria bacterium 28_42_T64
Встречаются следующие старт-кодоны:
ACA - 1
ATG - 1129
GTG - 41
TCA - 1
TCT - 1
TTG - 23
Mycoplasma pneumoniae M29
Встречаются следующие старт-кодоны:
ACC - 2
ATA - 2
ATC - 3
ATG - 634
ATT - 4
CTG - 4
GTG - 62
GTT - 1
TTA - 2
TTG - 40
Помимо старт-кодона ATG также распространены GTG и TTG (CTG довольно редко). Они тоже хорошо связываются с тРНК. Скорее всего они создаются в отсутствие кодона ATG. Обычно альтернативные старт-кодоны тоже транслируются как метионин, если они находятся в начале белка. GTG встречается чаще TTG возможно потому, что геометрия гуанина похожа на аденин, т.к. оба являются пуринами. Редкие старт-кодоны могли возникнуть в результате мутаций.
Задание №2
Escherichia coli str. K-12 substr. MG1655
lcl|U00096.3_cds_249 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
lcl|U00096.3_cds_AAD13438.1_1457 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
lcl|U00096.3_cds_1973 [gene=yoeA] [locus_tag=b4582] [db_xref=ASAP:ABE-0285114,ECOCYC:G7075] [protein=CP4-44 prophage; TonB-dependent receptor plug domain-containing protein YoeA] [pseudo=true] [location=join(2068635..2068940,2070277..2070474)] [gbkey=CDS]
lcl|U00096.3_cds_AAD13456.1_3815 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
lcl|U00096.3_cds_AAD13462.1_3987 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
Три нуклеотида кодируют субъединицы фермента формиатдегидрогеназы, а два других содержатся в псевдогенах.
Селеноцистеин, содержащийся в формиатдегидрогеназе, кодируется TGA особым образом. Но TGA обычно является стоп-кодоном в других последовательностях.
Задание №3
Escherichia coli str. K-12 substr. MG1655
Частоты стоп-кодонов:
TGA - 1241
TAA - 2756
TAG - 303
Candidatus Gracilibacteria bacterium 28_42_T64
Частоты стоп-кодонов:
TGA - 1 (в псевдогене)
TAA - 1000
TAG - 188
Mycoplasma pneumoniae M29
Частоты стоп-кодонов:
TGA - 0
TAA - 531
TAG - 210
У Candidatus Gracilibacteria bacterium 28_42_T64 и Mycoplasma pneumoniae M29 TGA не является стоп-кодоном, поэтому скорее всего он кодирует какую-то аминокислоту.
Глицин у Candidatus Gracilibacteria bacterium 28_42_T64 https://scienceintheclassroom.org/sites/default/files/research-papers/stop_codon_reassignments_in_the_wild.pdf
Триптофан у Mycoplasma pneumoniae M29 https://journals.asm.org/doi/abs/10.1128/iai.55.12.3023-3029.1987
Задание №4
Escherichia coli str. K-12 substr. MG1655:
Встречаемость кодонов, кодирующих лейцин:
CTA - 5201
CTC - 14926
CTG - 71198
CTT - 14719
TTA - 18484
TTG - 18283
Candidatus Gracilibacteria bacterium 28_42_T64:
Встречаемость кодонов, кодирующих лейцин:
CTA - 3357
CTC - 3968
CTG - 1714
CTT - 9332
TTA - 14766
TTG - 3237
Mycoplasma pneumoniae M29:
Встречаемость кодонов, кодирующих лейцин:
CTA - 2848
CTC - 3161
CTG - 2473
CTT - 2797
TTA - 10295
TTG - 5601
Возможно разница или ее отсутствие частоты используемости разных кодонов (в пределах одной бактерии) обсуловлена различными мутациями. Может быть для бактерии какие либо кодоны являются выгодными, поэтому их больше, например, возможно им нужно это для защиты.
В разных бактериях частота различна, т.к. бактерии могут жить в разных условиях и для них будут отличаться кодоны, которые выгодны им для приспособления в той или иной среде обитания.
Задание №5
график cumulative GC-skew для Escherichia coli str. K-12 substr. MG1655
минимум cumulative GC-skew ~3900000 (соответствует ориджину репликации). Согласуется с информацией об origin в genbank (3925744..3925975)
максимум cumulative GC-skew ~1530000 (соответствует месту конца репликации хромосомы)
Задание №6
Самые частые последовательности (6-меры):
ATGAAA
TGAAAA
GAAAAA
AAGGAG
AAAAAA
Они богаты пуринами (A и G). Это последовательность Шайна-Дальгарно - сайт связывания рибосом на молекуле мРНК прокариот.