Kodomo

Пользователь

Курс Практической информатики. Практикум 14

Для выполнения практического задания студентам были предоставлены ссылки на геномы (complete genome) следующих организмов: Escherichia coli str. K-12 substr. MG1655, Candidatus Gracilibacteria bacterium 28_42_T64, Mycoplasma pneumoniae M29. Для краткости будем называть их Escherichia coli, Candidatus Gracilibacteria bacterium и Mycoplasma pneumoniae соответственно.


скрипты на Colab


Задание 1

Использование старт-кодонов

Escherichia coli

кодон

ATG

GTG

TTG

ATT

CTG

TTC

встречаемость

3879

336

79

4

2

1

Candidatus Gracilibacteria bacterium

кодон

ATG

GTG

TTG

TCA

TCT

ACA

встречаемость

1119

40

23

1

1

1

Mycoplasma pneumoniae

кодон

ATG

GTG

TTG

ATT

ATA

TTA

CAA

CTC

AAA

ACT

ATC

CTG

GGA

GTT

TCT

встречаемость

616

58

51

8

4

3

2

2

1

1

1

1

1

1

1

Описание наблюдаемого результата: наиболее распространенным стартовым кодоном среди организмов является AUG, исследуемые бактерии - не исключение (в ДНК АТG соответственно). Помимо данного кодона могут использоваться другие, альтернативные старт-кодоны. Для исследуемых организмов можно выделить два наиболее используемых альтернативных старт-кодона: GUG и UUG. Их "популярность" у бактерий можно объяснить тем, что эти кодоны частично комплементарны антикодону инициирующей аминоацил-тРНК (ATG-CAT; GUG - CAT, UUG - CAT). Можно сделать вывод, что первое основание кодона и последнее основание антикодона наиболее важны для формирования водородных связей между триплетом и антикодоном. Возможно, альтернативные стартовые кодоны нужны для инициации трансляции в стрессовых условиях.


Задание 2

Мобильный стоп-кодон Escherichia coli

lcl|U00096.3_cds_b4587_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]

Описание наблюдаемого результата: description содержит [pseudo=true]. В результате мутации в последовательности появился стоп кодон, данная последовательность стала псевдогеном.

lcl|U00096.3_cds_AAD13438.1_1459[gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]

lcl|U00096.3_cds_AAD13456.1_3824[gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]

lcl|U00096.3_cds_AAD13462.1_3997[gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]

Описание наблюдаемого результата: description содержит [protein=formate dehydrogenase...] [transl_except=(...,aa:Sec)]. Фермент формат дегидрогеназа E. coli содержит в своем составе аминокислоту селеноцистеин Sec и вероятно обеспечивает анаэробное дыхание бактерии. Такие белки (в том числе) называют селенопротеинами, при их синтезе происходит трансляционное перекодирование, и аминокислоту начинает кодировать стоп кодон (источник).


Задание 3

Частоты стоп кодонов

Стоп-кодоны

TAA

TAG

TGA

Escherichia coli

2750

304

1244

Candidatus Gracilibacteria bacterium

990

186

1

Mycoplasma pneumoniae

516

220

0

Описание наблюдаемого результата: Candidatus Gracilibacteria bacterium и Mycoplasma pneumoniae, можно сказать, не имеют в своих геномах стоп кодона TGA: у Candidatus Gracilibacteria bacterium он встретился один раз в конце кодирующей последовательности, а у Mycoplasma pneumoniae вовсе не найден. Вероятно, этот триплет является не стоп кодоном, а кодирующим у данных организмов. Согласно источникам, Gracilibacteria перекодируют стоп кодон в глицин, а Mycoplasma pneumoniae - в триптофан (источник1, источник2), то есть они имеют альтернативный генетический код.


Задание 4

Частоты кодонов, кодирующих лейцин

Лейциновые кодоны

CTA

CTC

CTG

CTT

TTA

TTG

Escherichia coli

5188

14910

71073

14691

18446

18226

Candidatus Gracilibacteria bacterium

3318

3932

1689

9235

14580

3206

Mycoplasma pneumoniae

2807

3117

2450

2704

10093

5494

Описание наблюдаемого результата: цветом выделены наиболее часто встречающиеся кодон/бактерию. Использование различных кодонов в пределах одной бактерии создает возможность для мутаций (то есть задел для "синонимичных мутаций"). Различия в частоте кодонов между бактериями может быть обусловлено GC-составом их генома, который, в свою очередь, также зависит от условий среды обитания.


Задание 5

cumulative GC-skew Escherichia coli

график

minimum -28,3285 координаты минимума: 3870000 (по таблице, ссылка на ячейку)

maximum 47,7317 координаты максимума: 1513000 (по таблице, ссылка на ячейку)

Минимум cumulative GC-skew приблизительно соответствует положению oriC ориджин репликации из GenBank : rep_origin 3925744..3925975

Бактерии имеют кольцевые хромосомы, что значит, что максимуму cumulative GC-skew точка терминации репликации. GenBank : 1511000..1516000


Задание 6

-

Users/simonasmit/pr14 (последним исправлял пользователь simonasmit 2023-12-21 16:42:32)