Артём Салимгареев
Катаюсь на роликах, умею тормозить как хоккеисты. Окончил маткласс 179 школы.
Практикум 13
Задание 1. Старт-кодоны в геноме Escherichia coli str. K-12 substr. MG1655:
ATG |
3883 |
ATT |
4 |
CTG |
2 |
GTG |
334 |
TTC |
1 |
TTG |
78 |
Старт-кодоны в геноме Candidatus Gracilibacteria bacterium 28_42_T64:
ACA |
1 |
ATG |
1129 |
GTG |
41 |
TCA |
1 |
TCT |
1 |
TTG |
23 |
Старт-кодоны в геноме Mycoplasma pneumoniae M29:
ACC |
2 |
ATA |
2 |
ATC |
3 |
ATG |
634 |
ATT |
4 |
CTG |
4 |
GTG |
62 |
GTT |
1 |
TTA |
2 |
TTG |
40 |
Объяснение такой вариативности кодонов:
ATG - стандартный, наиболее распространенный кодон в каждом геноме.
Кодоны типа [G,T]TG встречаются в десятки раз реже ATG, но тоже присутствуют в каждом геноме как стартовые больше нескольких раз. Это может быть результатом случайных точечных замен нуклеотидов. Эти замены не оказывают негативного эффекта, поэтому сохраняются в геноме. Тогда, очевидно, первая позиция в старт-кодоне намного менее консервативна, чем вторая и третья. Почему мы не видим кодона CTG с примерно той же частотой встречаемости, что и "[G,T]TG"? Моё предположение иллюстрирует таблица:
- |
A |
T |
G |
C |
Пурин - "+", пиримидин - "-" |
+ |
- |
+ |
- |
Образует 2 водородных связи с комплементарным нуклеотидом - "+", три - "-" |
+ |
+ |
- |
- |
C и A различны по обоим приведенным в таблице параметрам, поэтому наверное замена A на C обычно не проходит бесследно, а приводит к ухудшению выживаемости организма-носителя.
Второй нуклеотид (Т) в старт-кодоне жутко консервативен! более, чем первый и третий.
Задание 2:
Результат работы программы:
lcl|U00096.3_cds_249 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS] |
lcl|U00096.3_cds_AAD13438.1_1457 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS] |
lcl|U00096.3_cds_AAD13456.1_3815 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS] |
lcl|U00096.3_cds_AAD13462.1_3987 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS] |
Всего 4 выведенных названия. Второй, третий и четвертый - гены белков из одного "семейства" - формиатдегидрогеназы. Они очень схожи по последовательности гена, строению, механизму работы. У них всех в названии указано, что есть исключение при трансляции - на позиции с 586 по 588, транслируется этот кодон в селеноцистеин. Это и есть стоп-кодон посреди последовательности.
Первая строка вывода - псевдоген. Это последовательность, гомологичная гену (имеет характерные для гена нуклеотидные паттерны), но с неё не транслируется белок. В нём, как и везде в геноме, происходят мутации, но они здесь с большой вероятностью нейтральные, так как не влияют на структуру каких-либо белков. Вот здесь и присутствует стоп-кодон посреди последовательности. Возможно, что как раз мутация, создавшая стоп-кодон превратила ген в псевдоген.
Задание 3:
Результат для 1 бактерии:
TGA 1241
TAA 2756
TAG 303
ATA 1
GAA 1
Результат для 2 бактерии:
TGA 1
TAA 1000
TAG 188
TCT 2
TTA 1
AAA 1
CTT 1
ACA 1
GAA 1
Результат для 3 бактерии:
TGA 0
TAA 531
TAG 210
GTT 1
ACT 1
GTG 1
AAT 2
TTT 1
GAT 1
GGC 2
TAC 1
CGG 1
GGG 1
AAA 1
TGA кодон кодирует триптофан у микоплазм: воспользовался Ctrl+F в https://academic.oup.com/femspd/article/75/3/ftx017/2996644 TGA кодон кодирует глицин у Gracilibacteria: https://www.science.org/doi/abs/10.1126/science.1250691
Объяснение странного распределения частот разных стоп-кодонов: Может быть биологическая причина и информатическая причина такого распределения. Если биологическая, то видимая нами картина отражает какой-то факт, встречающийся в природе. Информатическая причина - ученые, которые работали с этим геномом где-то ошиблись или чего-то не учли и получили данные, которые не соответствуют реальности, которые мы здесь выявили. Надо заметить, что первая бактерия во много раз лучше изучена, чем две другие, там наверняка многое тщательно проверено и распределение стоп-кодонов выглядит реалистично. У бактерий 2 и 3 намного больший набор выявленных стоп-кодонов.
Задание 4: E.coli:
CTA |
5201 |
CTT |
14719 |
CTC |
14926 |
TTA |
18484 |
CTG |
71198 |
TTG |
18283 |
Candidatus Gracilibacteria bacterium 28_42_T64:
CTA |
3357 |
CTT |
9332 |
CTC |
3968 |
TTA |
14766 |
CTG |
1714 |
TTG |
3237 |
Mycoplasma pneumoniae M29:
CTA |
2848 |
CTT |
2797 |
CTC |
3161 |
TTA |
10295 |
CTG |
2473 |
TTG |
5601 |
У всех бактерий видно неравномерное распределение частот встречаемости разных кодонов, кодирующих лейцин. Закономерности, общий для всех трех бактерий не наблюдается. Отбор в пользу одних кодонов по сравнению с другими идёт (раз их частота использования различается в разы), но в разных бактериях по-разному.
Отбору могут способствовать экология места проживания бактерии в природе, дороговизна некоторых кодонов (например GC богатых) по сравнению с другими. Конкретные причины мне не понятны.
Задание 5: Ссылка на график GC-skew. В интернете написано, что точка максимума на графике GC-skew соответствует точке терминации репликации, а минимума - точке начала репликации (ориджину репликации).
Работа с геномом бактерии:
Я выбрал бактерию Spiroplasma citri из длинного списка за короткое видовое название, дальше я нашел в гугл картинках по запросу "Spiroplasma citri" много красивых фотографий цитрусовых и их листьев - и обрадовался. Бактерия вызывает болезнь цитрусовых. Листья сворачиваются, покрываются пятнами, плоды не наливаются соком.