Практикум 13
Скрипты
Задание 1
- Старт-кодоны Escherichia coli str. K-12 substr. MG1655:
ATG |
3890 |
GTG |
338 |
|
ATT |
4 |
TTC |
1 |
|
CTG |
2 |
TTG |
80 |
- Старт-кодоны Candidatus Gracilibacteria bacterium 28_42_T64:
ACA |
1 |
TCA |
1 |
|
ATG |
1129 |
TCT |
1 |
|
GTG |
41 |
TTG |
23 |
- Старт-кодоны Mycoplasma pneumoniae M29:
AAA |
1 |
CTG |
2 |
|
ACA |
1 |
GAA |
1 |
|
ACT |
1 |
GTG |
60 |
|
ATA |
3 |
GTT |
1 |
|
ATC |
1 |
TCC |
2 |
|
ATG |
627 |
TCT |
1 |
|
ATT |
7 |
TGA |
1 |
|
CAA |
1 |
TTA |
1 |
|
CAC |
1 |
TTC |
1 |
|
CTA |
1 |
TTG |
49 |
|
CTC |
3 |
Для E.coli, ATG, GTG, TTG считаются каноническими старт-кодонами (и составляют подавляющее большинство старт-кодонов), ATT, CTG отличаются на 1 основание от ATG, потому их встречаемость может объясняться ошибками в репликации ДНК. TTC - старт-кодон для псевдогена lomR.
Есть предположение, что GTG старт-кодон ассоциирован с формированием более прочных вторичных структур в процессе транскрипции
Для Candidatus Gracilibacteria, ACA - старт-кодон для псевдогена гипотетического белка, TCA - тарт-кодон для псевдогена серин/треонин протеин-киназы, TCT - cтарт-кодон для псевдогена С-субъединицы АТФ-синтазы F0. Остальные старт-кодоны каноничные для прокариотов.
Для Mycoplasma pneumoniae M29, ATT, CTG, ATC - старт-кодоны гипотетических белков, все 3 отличаются от ATG на 1 основание. ATT также старт-кодон для DUF16 домен-содержащего белка и наиболее вероятно, выполняет регуляторную функцию. CTG - старт-кодон для MFS транспортера, вероятно, также выполняет регуляторную функцию. Остальные старт-кодоны ассоциированы с псевдогенами.
Задание 2
Последовательности с несколькими стоп-кодонами:
lcl|U00096.3_cds_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
2 TAA 2 TGA
lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
1 TAA 1 TGA
lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
1 TAA 1 TGA
lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
1 TAA 1 TGA
У E.coli стоп-кодоны в середине последовательности встретились у IS911A регуляторного фрагмента, формиат-дегидрогеназы H, и альфа-субъединиц формиат-дегидрогеназы N и O. IS911A - инсерционная последовательность, в данном случае разбитая IS30A на 2 части, до разбиения скорее всего кодировала транспозазу и регуляторные белки, их стоп-кодоны мы и видим, в формиат-дегидрогеназах TGA кодирует селеноцистеин.
Задание 3
Стоп-кодоны:
- Для Escherichia coli str. K-12 substr. MG1655:
TGA |
1246 |
TAA |
2761 |
TAG |
306 |
- Для Candidatus Gracilibacteria bacterium 28_42_T64:
TGA |
1 |
TAA |
1000 |
TAG |
188 |
- Для Mycoplasma pneumoniae М29:
TGA |
0 |
TAA |
526 |
TAG |
220 |
Для 2 и 3 бактерий TGA не встречается в связи с тем, что у них он кодирует триптофан статья про Candidatus Gracilibacteria статья про Mycoplasma pneumoniae
Задание 4
Kодоны, кодирующие лейцин:
- Для Escherichia coli str. K-12 substr. MG1655:
TTA |
18505 |
CTC |
14952 |
|
TTG |
18301 |
CTA |
5203 |
|
CTT |
14728 |
CTG |
71305 |
- Для Candidatus Gracilibacteria bacterium 28_42_T64:
TTA |
14766 |
CTC |
3968 |
|
TTG |
3237 |
CTA |
3357 |
|
CTT |
9332 |
CTG |
1714 |
- Для Mycoplasma pneumoniae М29:
TTA |
10294 |
CTC |
3158 |
|
TTG |
5571 |
CTA |
2826 |
|
CTT |
2782 |
CTG |
2470 |
Для E.coli наиболее часто встречающийся кодон - CTG, для E.coli характерны многократные его повторы, регулирующие цикл роста бактерии. Для Candidatus Gracilibacteria и Mycoplasma pneumoniae встречаемость кодонов, кодирующих лейцин по всей видимости зависит от GC-содержания генома (кодоны содержащие гуанин и цитозин встречаются реже)
Задание 5
Получился следующий график
Ось х - координаты в геноме Ось y - значение GC-skew Оранжевая линия - cumulative GC-skew
oriC находится на '-' цепи с 3926012 по 3926455 нуклеотид. На графике этому соответствует минимум графика cumulative GC-skew. Если предположение о том, что ter находится в точке максимума cumulative GC-skew верно, то ter для E.coli находится в районе 1500000 нуклеотида.
Задание 6
10 наиболее часто встречающихся 6-меров:
- Для Escherichia coli str. K-12 substr. MG1655:
GAAAAA |
112 |
AAAGGA |
138 |
|
GGAGAA |
114 |
AAAAAA |
147 |
|
AGGAGT |
126 |
AGGAGA |
147 |
|
CAGGAG |
128 |
TAAGGA |
168 |
|
AAGGAA |
135 |
AAGGAG |
190 |
- Для Candidatus Gracilibacteria bacterium 28_42_T64:
TAAATA |
110 |
AAAATA |
171 |
|
TTTTTA |
115 |
AAATAA |
175 |
|
TTTTTT |
120 |
TAAAAA |
179 |
|
AAAAAT |
144 |
ATAAAA |
180 |
|
AATAAA |
164 |
AAAAAA |
282 |
- Для Mycoplasma pneumoniae М29:
ATTAAA |
33 |
AATTTA |
38 |
|
AAATTA |
34 |
AATAAA |
40 |
|
AAAGGA |
35 |
TAAAAA |
41 |
|
AAATAA |
36 |
TTTAAA |
42 |
|
TTAAAC |
36 |
AATTAA |
50 |
Очевидно, преобладают 6-меры богатые аденином и тимином для бактерий с низким содержанием GC (похоже на сайт связывания рибосомного белка S) и аденином и гуанином для бактерий с высоким содержанием GC (похоже на последовательность Шайна-Дальгарно)