Задачи практикума 13.
Код и графики доступны по ссылке.
Задача 1.
E. coli
ATG |
3890 |
Основной старт-кодон |
ATT |
4 |
Начинается с пурина, отличие от ATG на один нуклеотид. |
CTG |
2 |
Начинается не с пурина, но отличие от ATG на один нуклеотид. |
GTG |
338 |
Начинается с пурина |
TTC |
1 |
Белок встроившегося в геном бактериофага |
TTG |
80 |
Начинается не с пурина, но отличие от ATG на один нуклеотид. |
G. bacterium
ACA |
1 |
Пвсевдоген |
ATG |
1129 |
Основной старт-кодон |
GTG |
41 |
Начинается с пурина |
TCA |
1 |
Псевдоген |
TCT |
1 |
Псевдоген |
TTG |
23 |
Начинается не с пурина, но отличие всего на 1 нуклеотид |
M. pneumoniae
AAA |
1 |
Рестриктаза, начало тоже с пурина |
ACA |
1 |
Адгезин P1 (псевдоген) |
ACT |
1 |
|
ATA |
3 |
|
CAA |
1 |
|
CAC |
1 |
|
CTC |
3 |
|
TCC |
2 |
|
TCT |
1 |
|
TGA |
1 |
|
ATC |
1 |
Гипотетический белок |
ATG |
627 |
Основной старт-кодон |
ATT |
7 |
Гипотетические белки |
CTA |
1 |
Псевдоген |
GTT |
1 |
|
CTG |
2 |
Tранспортный белок |
GAA |
1 |
Начинается с пурина |
GTG |
60 |
Начинается с пурина |
TTA |
1 |
Рестриктаза |
TTC |
1 |
Псевдоген |
TTG |
49 |
Начинается не с пурина, но отличие от ATG только на один нуклеотид |
Наиболее часто встречаются альтернативные старт-кодоны GTG и TTG - отличие от ATG только на один нуклеотид. Наибольшее разнообразие старт-кодонов - у Mycoplasma pneumoniae. Также вероятно, что наличие пурина в качестве первого нуклеотида повышает вероятность кодона быть альтернативным старт-кодоном (аналогично с промоторами).
Возможно, при помощи различных старт-кодонов можно регулировать экспрессию соответствующих генов. Также часто альтернативные старт-кодоны встречаются в псевдогенах, поскольку там нет отбора на консервативность последовательности.
Как связаны рестриктазы и альтернативные старты я, если честно, не нашёл.
Задание 2.
Имеются 4 последовательности со стоп-кодонами не в конце:
lcl|U00096.3_cds_b4587_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
(Псевдоген)
lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
Три белка выше содержат селеноцистеин, который как раз кодируется одним из стоп-кодонов (TGA) - рядом имеется последовательность, формирующая особую шпильку узнавания.[1]
Задание 3.
E. Coli
ATA |
1 |
GAA |
1 |
TAA |
2761 |
TAG |
306 |
TGA |
1246 |
G. bacterium
AAA |
1 |
ACA |
1 |
CTT |
1 |
GAA |
1 |
TAA |
1000 |
TAG |
188 |
TCT |
2 |
TGA |
1 |
TTA |
1 |
M. pneumoniae
AAA |
1 |
AAT |
1 |
ACT |
1 |
ATA |
1 |
CCC |
1 |
CGG |
1 |
CTA |
1 |
GAT |
1 |
GGC |
1 |
GGG |
5 |
GGT |
3 |
TAA |
526 |
TAC |
1 |
TAG |
220 |
TAT |
1 |
TTA |
1 |
TGA у бактерий выше не используется как стоп кодон (либо используется только в псевдогене), поскольку кодирует глицин[2] и триптофан[3].
Задание 4.
Кодон |
E. Coli |
G. Bacterium |
M. pneumoniae |
CTA |
0.0364 |
0.1088 |
0.1201 |
CTC |
0.1046 |
0.1005 |
0.0752 |
CTG |
0.4987 |
0.0928 |
0.1047 |
CTT |
0.1030 |
0.1802 |
0.1585 |
TTA |
0.1294 |
0.3375 |
0.3169 |
TTG |
0.1280 |
0.1801 |
0.2246 |
В кодирующих последовательностях E. coli для кодирования лейцина наиболее часто используется кодон CTG, а реже всего - CTA, Gracilibacteria и Mycoplasma - наиболее частый TTA, наименее - CTG.
Различия между частотами кодонов одной бактерии, вероятно, связаны с регуляцией экспрессии генов, а конкретно с различиями в частоте встречаемости соответсвенных тРНК.
Различия между частотами кодонов между разными бактериями можно объяснить разным GC-составом геномов этих бактерий.
Задание 5.
GC-skew:
Максимальное значение принимает на шаге 1513000, равное 47.733
Минимальное значение принимает на шаге 3870000, равное -28.328
Эти точки - точка терминации репликации и её ori.
Задание 6.
Данные для H. pseudoflava:
GGAGCC 208
ACAGAG 210
CCGAGG 224
GAGACA 230
CCGGAG 246
CAAGGA 250
GAGGCC 252
GAGGAG 252
AGGAGC 254
CGAGGA 296
AGGAAC 304
AAGGAG 310
GAGGAA 338
CAGAGG 342
AGAGGA 348
CAGGAG 372
GAGGAC 372
AGGAGA 396
GGAGAC 398
GGAGAC встречается 398 раз и является самым часто встречающимся гексамером среди всех в области 20нк.
Может являться частью сайта посадки рибосомы на мРНК (RBS, ribosome-binding site). Вероятно, имеет отношение к SD-последовательности.
[1] David P. Clark, Nanette J. Pazdernik and Michelle R. McGehee, Molecular Biology
[2] Hanke A, Hamann E, Sharma R, Geelhoed JS, Hargesheimer T, Kraft B, Meyer V, Lenk S, Osmers H, Wu R, Makinwa K, Hettich RL, Banfield JF, Tegetmeyer HE, Strous M. 2014. Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat. Front Microbiol
[3] J M Inamine and K C Ho and S Loechel and P C Hu, Evidence that UGA is read as a tryptophan codon rather than as a stop codon by Mycoplasma pneumoniae, Mycoplasma genitalium, and Mycoplasma gallisepticum. Journal of Bacteriology