Курс Практической информатики. Практикум 14
Для выполнения практического задания студентам были предоставлены ссылки на геномы (complete genome) следующих организмов: Escherichia coli str. K-12 substr. MG1655, Candidatus Gracilibacteria bacterium 28_42_T64, Mycoplasma pneumoniae M29. Для краткости будем называть их Escherichia coli, Candidatus Gracilibacteria bacterium и Mycoplasma pneumoniae соответственно.
Задание 1
Использование старт-кодонов
Escherichia coli
кодон |
ATG |
GTG |
TTG |
ATT |
CTG |
TTC |
встречаемость |
3879 |
336 |
79 |
4 |
2 |
1 |
Candidatus Gracilibacteria bacterium
кодон |
ATG |
GTG |
TTG |
TCA |
TCT |
ACA |
встречаемость |
1119 |
40 |
23 |
1 |
1 |
1 |
Mycoplasma pneumoniae
кодон |
ATG |
GTG |
TTG |
ATT |
ATA |
TTA |
CAA |
CTC |
AAA |
ACT |
ATC |
CTG |
GGA |
GTT |
TCT |
встречаемость |
616 |
58 |
51 |
8 |
4 |
3 |
2 |
2 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
Описание наблюдаемого результата: наиболее распространенным стартовым кодоном среди организмов является AUG, исследуемые бактерии - не исключение (в ДНК АТG соответственно). Помимо данного кодона могут использоваться другие, альтернативные старт-кодоны. Для исследуемых организмов можно выделить два наиболее используемых альтернативных старт-кодона: GUG и UUG. Их "популярность" у бактерий можно объяснить тем, что эти кодоны частично комплементарны антикодону инициирующей аминоацил-тРНК (ATG-CAT; GUG - CAT, UUG - CAT). Можно сделать вывод, что первое основание кодона и последнее основание антикодона наиболее важны для формирования водородных связей между триплетом и антикодоном. Возможно, альтернативные стартовые кодоны нужны для инициации трансляции в стрессовых условиях.
Задание 2
Мобильный стоп-кодон Escherichia coli
lcl|U00096.3_cds_b4587_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS] |
Описание наблюдаемого результата: description содержит [pseudo=true]. В результате мутации в последовательности появился стоп кодон, данная последовательность стала псевдогеном.
lcl|U00096.3_cds_AAD13438.1_1459[gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS] |
lcl|U00096.3_cds_AAD13456.1_3824[gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS] |
lcl|U00096.3_cds_AAD13462.1_3997[gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS] |
Описание наблюдаемого результата: description содержит [protein=formate dehydrogenase...] [transl_except=(...,aa:Sec)]. Фермент формат дегидрогеназа E. coli содержит в своем составе аминокислоту селеноцистеин Sec и вероятно обеспечивает анаэробное дыхание бактерии. Такие белки (в том числе) называют селенопротеинами, при их синтезе происходит трансляционное перекодирование, и аминокислоту начинает кодировать стоп кодон (источник).
Задание 3
Частоты стоп кодонов
Стоп-кодоны |
TAA |
TAG |
TGA |
Escherichia coli |
2750 |
304 |
1244 |
Candidatus Gracilibacteria bacterium |
990 |
186 |
1 |
Mycoplasma pneumoniae |
516 |
220 |
0 |
Описание наблюдаемого результата: Candidatus Gracilibacteria bacterium и Mycoplasma pneumoniae, можно сказать, не имеют в своих геномах стоп кодона TGA: у Candidatus Gracilibacteria bacterium он встретился один раз в конце кодирующей последовательности, а у Mycoplasma pneumoniae вовсе не найден. Вероятно, этот триплет является не стоп кодоном, а кодирующим у данных организмов. Согласно источникам, Gracilibacteria перекодируют стоп кодон в глицин, а Mycoplasma pneumoniae - в триптофан (источник1, источник2), то есть они имеют альтернативный генетический код.
Задание 4
Частоты кодонов, кодирующих лейцин
Лейциновые кодоны |
CTA |
CTC |
CTG |
CTT |
TTA |
TTG |
Escherichia coli |
5188 |
14910 |
71073 |
14691 |
18446 |
18226 |
Candidatus Gracilibacteria bacterium |
3318 |
3932 |
1689 |
9235 |
14580 |
3206 |
Mycoplasma pneumoniae |
2807 |
3117 |
2450 |
2704 |
10093 |
5494 |
Описание наблюдаемого результата: цветом выделены наиболее часто встречающиеся кодон/бактерию. Использование различных кодонов в пределах одной бактерии создает возможность для мутаций (то есть задел для "синонимичных мутаций"). Различия в частоте кодонов между бактериями может быть обусловлено GC-составом их генома, который, в свою очередь, также зависит от условий среды обитания.
Задание 5
cumulative GC-skew Escherichia coli
minimum -28,3285 координаты минимума: 3870000 (по таблице, ссылка на ячейку)
maximum 47,7317 координаты максимума: 1513000 (по таблице, ссылка на ячейку)
Минимум cumulative GC-skew приблизительно соответствует положению oriC ориджин репликации из GenBank : rep_origin 3925744..3925975
Бактерии имеют кольцевые хромосомы, что значит, что максимуму cumulative GC-skew точка терминации репликации. GenBank : 1511000..1516000
Задание 6
-