Задание 1
1) Для Esherichia coli: 'ATG': 3883, 'ATT': 4, 'CTG': 2, 'GTG': 334, 'TTC': 1, 'TTG': 78
Некоторые гены с редкими старт-кодонами: [protein=Rac prophage; protein LomR_1] [pseudo=true], [protein=inibitor of reinitiation of DNA replication], [protein=UPF0053 family inner membrane protein YfjD]. Один из них- псевдоген
2) Для Candidatus Gracilibacteria: 'ACA': 1, 'ATG': 1129, 'GTG': 41, 'TCA': 1, 'TCT': 1, 'TTG': 23
примеры генов с редкими старт-кодонами: [protein=serine/threonine protein kinase] [pseudo=true], [protein=hypothetical protein] [pseudo=true][protein=ATP synthase F0 subunit C] [pseudo=true], интересно, что каждый является псевдогеном.
3) Для Mycoplasma pneumoniae 'ACC': 2, 'ATA': 2, 'ATC': 3, 'ATG': 634, 'ATT': 4, 'CTG': 4, 'GTG': 62, 'GTT': 1, 'TTA': 2, 'TTG': 40
Пара генов с редкими старт-кодонами: [protein=MPN647 family lipoprotein], [protein=MgpC family cytadherence protein]
4)Пара предположений по полученным результатам: Возможно, что бактерии "метят" гены с разными уровнями экспрессий с помощью разных старт-кодонов, или "объединяют" таким способом гены, сходные по функциям, в группы.
Задание2
Стоп-кодоны встречаются посреди 4-х последовательностей в геноме:[protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true],[Swiss-Prot:P24183], [protein=formate dehydrogenase N subunit alpha], [Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha], [Swiss-Prot:P07658] [protein=formate dehydrogenase H]
Одна из них является псевдогеном, остальные 3 кодируют белки, входящие в состав формиатдегидрогеназы, с помощью которой бактерия может питаться формиатом в анаэробных условиях, возможно в 3-х последних произошла случайная мутация, и бактерии смогли обойтись без этих генов (возможно, штамм не попадал в анаэробные условия, возможно, есть много других метаболических путей, позволяющих бактериям выживать в анаэр. среде)
Задание3
На концах CDS второй и третьей бактерий пропал один из стоп-кодонов(TGA), если поискать его посреди (т.е. не в концах)CDS этих бактерий, то обнаружится, что их достаточно много (настолько много, что их кол-во сопоставимо с кол-вом кодонов аминокислот: у Candidatus Gracilibacteria-12442, у Mycoplasma pneumoniae-5189). Нашел пару статей, в которых есть информация о кодировании кодоном TGA селеноцистеина у различных организмов(https://www.pnas.org/content/82/8/2452.short; https://pubmed.ncbi.nlm.nih.gov/2141170/). Ну, а еще я посмотрел страничку Candidatus Gracilibacteria, и обнаружил то, что TGA кодирует глицин(https://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/index.cgi?chapter=cgencodes#SG25).
Задание4
Escherichia coli: CTA-5201; CTC-14926; CTG-71198; CTT-14719; TTA 18484; TTG 18283. Наиболее часто встречающимся кодоном является CTG (внезапно 71198 встреч!)
Mycoplasma pneumoniae: CTA-3619; CTC-2168; CTG-3220; CTT-5267; TTA-8959; TTG-6679. Наиболее часто встречающимся кодоном является TTA
Candidatus Gracilibacteria: CTA-4861; CTC-4491; CTG-4147; CTT-8053; TTA-15077; TTG-8048. Наиболее часто встречающимся кодоном является TTA
Я уже читал про некое предпочтение одних кодонов другим на примере стоп-кодонов, возможно это явление встречается и на примере кодонов, кодирующих аминокислоты. Предположу, что кодоны, начинающиеся с CT, распространены чаще TTA и TTG среди бактерий, 'стремящихся' к снижению частоты мутаций в геноме, ведь они 'более устойчивы к мутациям' (вырожденность генетического кода)(любопытно то, что 2 из 3-х бактерий предпочитают именно TTA). Возможно, у некоторых бактерий преобладают 'TT кодоны' из-за того, что для них повышенная частота мутаций может быть благоприятным фактором для выживания (например, некоторые патогенные организмы специально 'отключают' составляющие системы репарации клетки для увеличения кол-ва мутаций в геноме). Возможно, предположение бредовое, но в голову больше ничего не приходит...
Задание5
Ссылка на таблицу с графиком:
https://docs.google.com/spreadsheets/d/1M6tGy5BZvef_zMHE8XO5B4nxCZwpXQnZk15a4WgfiJI/edit?usp=sharing
Максимум cumulative GC-skew соответствует сайту ter, минимум же сайту Oric (места терминации и инициации трансляции соответственно).
Задание6
Поискал повторяющиеся 6-меры среди отрезков, находящихся рядом с началами CDS, в своей бактерии, обнаружил некоторые выделяющиеся из других по повторам: AAAAAT-232; AAGGAA-234; TAAGGA-201. Поискав информацию в научных источниках, я понял, что нужно найти посл-ть Шайна — Дальгарно. Но ,кажется, она больше характерна для грамположительных бактерий, поэтому решил поискать её в геноме подходящего организма. Решил взять Micromonospora carbonacea, получил следующие результаты: AGGAGG-345; CGGAGG-321; GAGGAG-445; GGAGGA-358; GGAGGC-345; GGGAGG-416. Эти 6-меры значительно выделяются как по кол-ву повторений, так и по составу (повышено GC содержание).
Для большей уверенности посмотрел на подобные повторы у другой грам+ бактерии- Saccharopolyspora spinosa: AAGGAG-322; AGGAGG-453; CGAGGA-319; CGGAGG-347; GAGGAG-492; GGAGGA-432; GGAGGC-326; GGAGGT-446; GGGAGG-377. Результат согласуется с информацией с информацией из источников.
Обнаруженные посл-ти участвуют в трасляции белка(конкретнее, в инициации трансляции).