Задание 1
Ниже представлены старт-кодоны и их количество в геномах соответствующих бактерий
Escherichia coli str. K-12 substr. MG1655
ATG 3883
ATT 4
CTG 2
GTG 334
TTC 1
TTG 78
Candidatus Gracilibacteria bacterium 28_42_T64
ACA 1
ATG 1129
GTG 41
TCA 1
TCT 1
TTG 23
Mycoplasma pneumoniae M29
ACC 2
ATA 2
ATC 3
ATG 634
ATT 4
CTG 4
GTG 62
GTT 1
TTA 2
TTG 40
Про прокариот известно, что они могут использовать альтернативные старт-кодоны, в частности это обнаружено у E.coli: GTG 14%; TTG 3%; ATT 0.023%; CTG 0.023%(?). (https://www.science.org/doi/10.1126/science.277.5331.1453?url_ver=Z39.88-2003&rfr_id=ori:rid:crossref.org&rfr_dat=cr_pub%20%200pubmed) (https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c)
Получившиеся при самостоятельной проверке проценты встречаемости старт-кодонов, соотносятся в отношении того, какой кодон встречается чаще, какой реже, с теми, что имеются в литературе, но численно отличаются почти в два раза (GTG 7,7%; TTG 1.8%; ATT 0.09%; CTG 0.046%). Выявить причины такого различия мне пока не удалось (разные подштаммы?, старое исследование?)
Ген, начинающийся на TTC, судя по описанию, является псевдогеном, не транскрибируется, поэтому кодон TTC, является лишь результатом случайной мутации старт-кодона. То же самое можно сказать про кодоны GTT, ACC и ATA Микоплазмы и про TCA, TCT Грацилибактерии.
ACA, ATC (?)
Задание 2
Заголовки кодирующих последовательностей, в которых содержится стоп-кодон НЕ в конце последовательности
lcl|U00096.3_cds_249 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
Так как это псевдоген, мутация приведшая к случайному возникновению стоп-кодона, никак не была исправлена или исключена естественным отбором.
lcl|U00096.3_cds_AAD13438.1_1457 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS] lcl|U00096.3_cds_AAD13456.1_3815 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS] lcl|U00096.3_cds_AAD13462.1_3987 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
Эти три гена кодируют разные белки в составе формиат дегидрогеназы, белки содержат селеноцистеин. Эта аминокислота кодируется одним из стоп-кодонов, такой механизм называется трансляционным перекодированием (https://www.sciencedirect.com/science/article/abs/pii/S0378111902004237?via%3Dihub)
Задание 3
Частоты стоп-кодонов для каждой из бактерий:
Escherichia coli str. K-12 substr. MG1655
TGA 1241
TAA 2756
TAG 303
Candidatus Gracilibacteria bacterium 28_42_T64
TGA 1 (в псевдогене)
TAA 1000
TAG 188
Mycoplasma pneumoniae M29
TGA 0
TAA 531
TAG 210
У второй и третьей бактерий нет TGA
У Микоплазмы TGA кодирует триптофан(https://pubmed.ncbi.nlm.nih.gov/3887399/)
У Грацилибактерии TGA кодирует глицин (https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c#SG25)
Задание 4
Частоты используемости лейцина у бактерий
Escherichia coli str. K-12 substr. MG1655
L 142731
Candidatus Gracilibacteria bacterium 28_42_T64
L 36353
Mycoplasma pneumoniae M29
L 27137
1.? 2.?
Задание 5
Ссылка на гугл-таблицу
https://docs.google.com/spreadsheets/d/1sNdLUMK9PaQ6guS3po55A5CRZXk0-_jDqlUD63mMtwQ/edit?usp=sharing
Минимуму Cumulative GC-skew соответствует ориджин репликации, 3 868 000 — 3 872 000 нуклеотиды
Максимуму Cumulative GC-skew соответствуют 1 511 000 — 1 516 000 нуклеотиды
Можно заметить, что максимум и минимум это противолежащие точки на кольцевом геноме (длина генома — 4 541 000 нуклеотидов, расстояние между ними примерно 2 355 000)