Задание 1. Старт-кодоны.
- Для Escherichia coli str. K-12 substr. MG1655:
ATG 3890
GTG 338
TTG 80
ATT 4
CTG 2
TTC 1
Всего: 4315
- Для Candidatus Gracilibacteria bacterium 28_42_T64:
ATG 1129
GTG 41
TTG 23
TCA 1
ACA 1
TCT 1
Всего: 1196
- Для Mycoplasma pneumoniae M29:
ATG 629
GTG 60
TTG 53
ATT 8
ATA 4
TTA 3
CTC 2
CAA 2
ATC 1
CTG 1
GGA 1
ACT 1
AAA 1
GTT 1
TCT 1
GAA 1
Всего: 769
Наиболее встречаемым старт-кодоном у всех бактерий является ATG. Следующий по встречаемости GTG, а после него - TTG. Можно предположить, что использоваться может не только ATG старт кодон, так как: 1. происходят точечные мутации 2. существуют альтернативные сплайс-варианты 3. некоторые организмы, например вирусы, используют другие стартовые кодоны для синтеза нужных им белков.
- Задание 2. Стоп-кодон не в конце последовательности.
У Escherichia coli str. K-12 substr. MG1655 такие стоп-кодоны были встречены в четырёх последовательностях:
1
lcl|U00096.3_cds_249 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
2
lcl|U00096.3_cds_AAD13438.1_1457 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
3
lcl|U00096.3_cds_AAD13456.1_3815 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
4
lcl|U00096.3_cds_AAD13462.1_3987 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
Согласно полученным данным, первая последовательность является псевдогеном, который не кодирует полный полипептид. В этом случае стоп-кодон встречается не в конце последовательности. Вторая, третья и четвертая последовательности могут кодировать только часть белка, но и стоп-кодоны в этих последовательностях соответствуют кодонам, кодирующие селеноцистеин (Sec).
- Задание 3. Частота стоп-кодонов.
Для Escherichia coli str. K-12 substr. MG1655:
TAA 2761
TGA 1246
TAG 306
ATA 1
GAA 1
Всего: 4315
Для Candidatus Gracilibacteria bacterium 28_42_T64:
TAA 1000
TAG 188
TCT 2
TTA 1
AAA 1
CTT 1
ACA 1
TGA 1
GAA 1
Всего: 1196
Для Mycoplasma pneumoniae M29:
TAA 533
TAG 221
GGG 4
ACT 1
ATA 1
AAT 1
CCC 1
GGT 1
GAT 1
TAT 1
ATT 1
TAC 1
AAA 1
TTA 1
Всего: 769
У всех трёх бактерий самым частым стоп-кодоном является TAA. На втором месте по встречаемости у Escherichia coli str. K-12 substr. MG1655 стоит TGA, в то время как у второй бактерии он встретился в конце кодирующей последовательности всего 1 раз, а у третьей бактерии он и вовсе не встретился. Можно предположить, что у них TGA является не стоп-кодоном, а кодоном, кодирующим аминокислоту. У второй бактерии TGA кодирует глицин[1], а у третьей - триптофан[2].
[1]- Christian M. K. Sieber, Blair G. Paul, Cindy J. Castelle, Ping Hu, Susannah G. Tringe, David L. Valentine, Gary L. Andersen and Jillian F.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6851277/
[2]- J M Inamine, K C Ho, S Loechel, and P C Hu
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC208464/
- Задание 4. Частоты используемости каждого из кодонов, кодирующих лейцин.
Для Escherichia coli str. K-12 substr. MG1655:
TTA 18505
TTG 18301
CTT 14728
CTC 14952
CTA 5203
CTG 71305
Для Candidatus Gracilibacteria bacterium 28_42_T64:
TTA 14767
TTG 3237
CTT 9333
CTC 3968
CTA 3357
CTG 1714
Для Mycoplasma pneumoniae M29:
TTA 10308
TTG 5572
CTT 2789
CTC 3139
CTA 2852
CTG 2474
У каждой бактерии разная частота встречаемости кодонов, у E. coli самый частый кодон для аминокислоты лейцина - "CTG", а у Candidatus "G. bacterium" и M. pneumoniae - "TTA". Отвечая на первый вопрос, можно предположить, что разница или ее отсутствие частоты используемости разных кодонов может быть обусловлена частотой мутаций: некоторые кодоны могут изменяться из-за мутаций, которые могут привести к изменению частоты использования кодонов, особенно если определенные кодоны становятся более или менее предпочтительными для связывания с определенными тРНК или рибосомой. Для разных бактерий различие может быть обосновано эволюционными факторами, когда в зависимости от адаптаций бактерий к специфическим условиям окружающей среды могут происходить изменения в предпочтительности использования определенных кодонов. Также может быть обусловлено тем фактом, что кодоны различных белков в геноме будут использоваться с разной частотой в зависимости от функциональной важности и необходимости.
- Задание 5. cumulative GC-skew.
Минимальное значение cumulative GC-Skew соответствует месту начала репликации и равно -28,328 (на координате 3870000), а максимальное - месту конца репликации и равно 47,733 (на координате 1513000).
Кодыды:
https://drive.google.com/drive/folders/18jEP8ufyXGqJTafyxxCnrl2qb-ll8xb5