Отчёт о практикуме №13
Код, использованный для выполнения этих заданий, можно посмотреть в Google Colab по ссылке.
Задание 1
В таблице 1 я привела встречаемость трёх самых частых старт-кодонов у трёх исследуемых бактерий. У каждой из них встречаются и другие старт-кодоны.
|
Escherichia coli |
Candidatus Gracilibacteria bacterium |
Mycoplasma pneumoniae |
ATG |
3890 |
1129 |
627 |
GTG |
338 |
41 |
60 |
TTG |
80 |
23 |
49 |
Табл. 1. Встречаемость кодонов ATG, GTG и TTG в начале белок-кодирующих последовательностей у исследованных бактерий.
Можно предложить несколько версий, по которым может использоваться не только ATG:
1) Некоторые из последовательностей с альтернативным старт-кодоном уже не кодируют белок, а выполняют регуляторную функцию или стали псевдогенами.
2) Рибосомы этих бактерий могут узнавать не только ATG как старт-кодон, и не только метионин может быть у них первой аминокислотой в первичной структуре белка.
3) Можно предположить, что происходит не полностью комплементарное взаимодействие между антикодоном тРНК и кодоном на мРНК, учитывая, что три самых частых кодона различаются только первым нуклеотидом. Впрочем, обычно не полностью комплементарное взаимодействие ("wobbling") происходит, когда у кодона к антикодону не подходит третий нуклеотид, а не первый.
Задание 2
У исследуемого штамма E. coli стоп-кодон встречается внутри белок-кодирующей последовательности в четырёх генах. Часть их описаний привожу ниже.
[protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [location=1547401..1550448] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [location=complement(4082772..4085822)] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [location=complement(4297219..4299366)]
У первого гена посередине встречается стоп-кодон, поскольку это псевдоген, а у остальных трëх этот стоп-кодон кодирует селеноцистеин ("Seq" - трёхбуквенное обозначение аминокислоты селеноцистеин; в информации про гены указано, что в нем есть участки в 3 п.н., кодирующие аминокислоту (aa) селеноцистеин (Seq)).
Задание 3
В таблице 2 привожу встречаемость «канонических» стоп-кодонов у исследуемых бактерий. У каждой из них на конце генов встречались и другие кодоны.
|
Escherichia coli |
Candidatus Gracilibacteria bacterium |
Mycoplasma pneumoniae |
TGA |
1246 |
1 |
0 |
TAA |
2761 |
1000 |
526 |
TAG |
306 |
188 |
220 |
Табл. 2. Встречаемость «канонических» стоп-кодонов у исследуемых бактерий.
Видно, что у Candidatus Gracilibacteria bacterium и Mycoplasma pneumoniae кодон TGA практически не встречается на концах генов. Видимо, это связано с тем, что у Mycoplasma TGA кодирует триптофан, а у Gracilibacteria — глицин (1).
Задание 4
В стандартном генетическом коде лейцин кодирует 6 кодонов: CTT, CTC, CTA, CTG, TTA и TTG. Их частоты у исследуемых бактерий приведены в таблице 3.
|
Escherichia coli |
Candidatus Gracilibacteria bacterium |
Mycoplasma pneumoniae |
CTA |
5203 |
3357 |
2826 |
CTC |
14952 |
3968 |
3158 |
CTG |
71305 |
1714 |
2470 |
CTT |
14728 |
9333 |
2782 |
TTA |
18505 |
14767 |
10295 |
TTG |
18301 |
3237 |
5571 |
Табл. 3. Частота кодирующих лейцин кодонов у исследуемых бактерий.
Внутри одного вида бактерий частоты этих кодонов могут отличаться по нескольким причинам:
1) Бактерия утратила тРНК к некоторым кодонам, и теперь они отсеиваются отбором и встречаются реже (предполагая, что не полностью комплементарное взаимодействие кодона и антикодона менее эффективно, чем полностью комплементарное).
2) Из некоторых кодонов по каким-то причинам легче в результате мутаций получается что-то летальное для бактерии.
3) Возможно, кодоны, в которых больше G и C, быстрее связываются с антикодоном при комплементарном взаимодействии, так как образуют больше водородных связей. Предполагаю, что это может быть адаптивно.
Может быть, частота встречаемости этих кодонов разнится у разных видов по какой-то из следующих причин:
1) Эти виды живут в условиях, в которых адаптивен разный GC-состав. Те бактерии, которым «нужно» больше гуанина и тимина, чаще используют кодоны, в которых их больше.
2) Эти виды потеряли разные гены тРНК.
3) На самом деле некоторые кодоны у этих бактерий кодируют не лейцин. Но по литературным данным (1) это не так.
Задание 5
К сожалению, на KodomoWiki нельзя вставить картинку, но график кумулятивного GC-skew E. coli можно увидеть по ссылке на Google Colab выше или по этой ссылке. Предположительно, минимума кумулятивный GC-skew достигает в точке ориджина репликации, максимума - в точке терминала репликации. Таким образом, предполагаемый терминал транскрипции находится у исследуемого штамма E. coli приблизительно в 1614000 п.н. от условного начала хромосомы, ориджин - приблизительно в 3971000 п.н.
А строчку "oriC" в genbank я не нашла.
Задание 6
Чаще всего в 20 нуклеотидах перед старт-кодоном у исследуемого штамма E. coli встречались 10 гексамеров, приведенные в таблице 4.
AAGGAG |
329 раз |
TAAGGA |
283 раз |
CAGGAG |
255 раз |
AGGAGA |
255 раз |
AAAGGA |
227 раз |
AAGGAA |
223 раз |
AGGAGT |
215 раз |
GGAGAA |
206 раз |
AGGAAA |
189 раз |
ACAGGA |
179 раз |
Табл. 4. Встречаемость самых частых гексамеров в 20 нуклеотидах перед старт-кодоном в геноме E. coli.
Видимо, гексамеры, чаще всего использующиеся в промоторах, помогают связаться с ДНК РНК-полимеразе или другим способом регулируют транскрипцию (например, с ними могут связываться регуляторы транскрипции). Любопытно, что всего у E. coli встретилось 4023 таких гексамера из 4096 возможных, то есть 73 варианта гексамеров вообще не встречаются у нее близко к старт-кодону.
Судя по всему, найденные гексамеры - участки канонической последовательности Шайна-Дальгарно у E. coli. Эта последовательность - TAAGGAGG - комплементарно взаимодействует с 16S рРНК (2). Видно, что два самых частых гексамера - куски этой последовательности, оставшиеся часто встречаемые гексамеры похожи на её участки (отличаются заменой или вставкой 1-2 нуклеотидов).
Использованная литература:
1) Seligmann H. Phylogeny of genetic codes and punctuation codes within genetic codes. Biosystems. 2015 Mar;129:36-43. doi: 10.1016/j.biosystems.2015.01.003. Epub 2015 Jan 16. PMID: 25600501. 2) Ludwig P, Huber M, Lehr M, Wegener M, Zerulla K, Lange C, Soppa J. Non-canonical Escherichia coli transcripts lacking a Shine-Dalgarno motif have very different translational efficiencies and do not form a coherent group. Microbiology (Reading). 2018 Apr;164(4):646-658. doi: 10.1099/mic.0.000619. Epub 2018 Feb 22. PMID: 29469690.