Задание 1.
Вывод скрипта:
Escherichia coli
ATG 3890
ATT 4
CTG 2
GTG 338
TTC 1
TTG 80
Candidatus Gracilibacteria bacterium
ACA 1
ATG 1129
GTG 41
TCA 1
TCT 1
TTG 23
Mycoplasma pneumoniae
AAA 1
ACT 1
ATA 4
ATC 1
ATG 629
ATT 8
CAA 2
CTC 2
CTG 1
GAA 1
GGA 1
GTG 60
GTT 1
TCT 1
TTA 3
TTG 53
Анализ полученного:
Больше всего классических метиониновых старт-кодонов ATG. На втором месте GTG - такой кодон получается из метионинового мутацией замены пурина на пурин, что является относительно частой мутацией (замена/добавление функциональных групп). На третьем месте - TTG, из классического получается заменой пурина на комплементарный пиримидин, что может случиться из-за ошибки ДНК-полимеразы во время репликации. Некоторые старт-кодоны находятся на псевдогенах, на которые не действует естественный отбор и они способны претерпеть любое количество мутаций. Некоторые мутации, вероятно, могут быть скомпенсированы близлежащими последовательностями таким образом, чтобы полимераза смогла проглотить этот "псевдостарт-кодон".
код:
https://kodomo.fbb.msu.ru/wiki/Users/mikhael.popiv/pr13/code1
Задание 2.
Вывод скрипта:
lcl|U00096.3_cds_b4587_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
Анализ полученного:
Первый участок - псевдоген, ему побочные стоп-кодоны не мешают, так как он не экспрессируется. Остальные три содержат внутри последовательности стоп-кодон TGA, который кодирует селеноцистеин (не воспринимается как стоп благодаря последующей последовательности нуклеотидов). TGA так же может в определенных условиях неверно считываться ферментом как кодон триптофана (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1135747/).
коод:
https://kodomo.fbb.msu.ru/wiki/Users/mikhael.popiv/pr13/code2
Задание 3.
Вывод скрипта:
E.coli:
TGA 1246
TAA 2761
TAG 306
Candidatus_Gracilibacteria_bacterium:
TGA 1
TAA 1000
TAG 188
Mycoplasma_pneumoniae:
TGA 0
TAA 533
TAG 221
Анализ полученного:
Немного поискав в интернете находим, что оказывается у второй бактерии кодон TGA кодирует глицин (... Hanke et al. predicted that the terminal codon UGA encodes glycine in Gracilibacteria (Hanke et al., 2014)). У второй бактерии UGA (TGA) считывается как триптофан, а не стоп-кодон (https://pubmed.ncbi.nlm.nih.gov/2104612/)
код:
https://kodomo.fbb.msu.ru/wiki/Users/mikhael.popiv/pr13/code3
Задание 4.
Вывод скрипта:
E.coli:
TTA 18505
TTG 18301
CTA 5203
CTC 14952
CTG 71305
CTT 14728
Candidatus Gracilibacteria bacterium:
TTA 15077
TTG 8048
CTA 4861
CTC 4491
CTG 4147
CTT 8053
Mycoplasma pneumoniae:
TTA 7950
TTG 4487
CTA 2715
CTC 2362
CTG 2298
CTT 5771
Анализ полученного:
Частота использования разных кодонов лейцина различна и для каждой бактерии в частности, и для всех в целом. Это может быть связано с предпочтением кодонов: каких-то из лейциновых тРНК с определенным антикодоном в пуле больше, чем остальных, поэтому и соответствующих кодонов тоже больше. Так же соотношение частот кодонов лейцина зависит от GC-состава последовательности: чем он больше, тем больше соответствующих кодонов (содержащих G/C).
код:
https://kodomo.fbb.msu.ru/wiki/Users/mikhael.popiv/pr13/code4
Задание 5.
Вывод скрипта:
в таблице: https://docs.google.com/spreadsheets/d/1FmwETVFSSdOt8SH5u-Gsv7HqqYiRU9QIdzLcB-eGBgw/edit#gid=0
Анализ полученного:
maximum: 47,733 (coordinate: 1513000)
minimum: 3870000 (coordinates: -28,328)
максимум - ориджин репликации, минимум - место терминации репликации. Согласно genbank ориджин лежит на координатах 3925744-3925975, что не сильно отличается от полученного нами результата.
код:
https://kodomo.fbb.msu.ru/wiki/Users/mikhael.popiv/pr13/code5