##master-page:HomepageTemplate
##master-date:2012-02-07T16:35:16Z
#format wiki
#language ru
= Артём Салимгареев =


[[https://kodomo.fbb.msu.ru/wiki/2021/1| первый семестр]]
[[https://kodomo.fbb.msu.ru/wiki/2021/2| второй семестр]]


[[https://kodomo.fbb.msu.ru/wiki/Users/art-salimgareev/pr3| pr3]]

[[https://kodomo.fbb.msu.ru/wiki/Users/art-salimgareev/pr7| pr7]]

[[https://kodomo.fbb.msu.ru/wiki/Users/art-salimgareev/pr8| pr8]]

[[https://kodomo.fbb.msu.ru/wiki/Users/art-salimgareev/minireview| minireview]]

##
Катаюсь на роликах, умею тормозить как хоккеисты. Окончил маткласс 179 школы.
{{https://sun9-33.userapi.com/impg/UCHyWN_cvhhVnknVfHfwecDIAvRjyGlRX0DeYw/55K99pyeXlU.jpg?size=1080x1017&quality=96&sign=93852812634b3423c6c8b34df7ed664f&type=album}}

= Практикум 13 =

'''Задание 1.''' 
Старт-кодоны в геноме Escherichia coli str. K-12 substr. MG1655:

|| ATG || 3883 ||
|| ATT || 4 ||
|| CTG || 2 ||
|| GTG || 334 ||
|| TTC || 1 ||
|| TTG || 78 ||

Старт-кодоны в геноме Candidatus Gracilibacteria bacterium 28_42_T64:

|| ACA || 1 ||
|| ATG || 1129 ||
|| GTG || 41 ||
|| TCA || 1 ||
|| TCT || 1 ||
|| TTG || 23 ||

Старт-кодоны в геноме Mycoplasma pneumoniae M29:

|| ACC || 2 ||
|| ATA || 2 ||
|| ATC || 3 ||
|| ATG || 634 ||
|| ATT || 4 ||
|| CTG || 4 ||
|| GTG || 62 ||
|| GTT || 1 ||
|| TTA || 2 ||
|| TTG || 40 ||

Объяснение такой вариативности кодонов:

ATG - стандартный, наиболее распространенный кодон в каждом геноме.

Кодоны типа [G,T]TG встречаются в десятки раз реже ATG, но тоже присутствуют в каждом геноме как стартовые больше нескольких раз. Это может быть результатом случайных точечных замен нуклеотидов. Эти замены не оказывают негативного эффекта, поэтому сохраняются в геноме. Тогда, очевидно, первая позиция в старт-кодоне намного менее консервативна, чем вторая и третья. 
Почему мы не видим кодона CTG с примерно той же частотой встречаемости, что и "[G,T]TG"? Моё предположение иллюстрирует таблица: 
|| - || A || T || G  || C ||
|| Пурин - "+", пиримидин - "-" || + || - || + || - ||
|| Образует 2 водородных связи с комплементарным нуклеотидом - "+", три - "-" || + || + || - || - ||

C и A различны по обоим приведенным в таблице параметрам, поэтому наверное замена A на C обычно не проходит бесследно, а приводит к ухудшению выживаемости организма-носителя. 

Второй нуклеотид (Т) в старт-кодоне жутко консервативен! более, чем первый и третий. 

'''Задание 2:'''

Результат работы программы:

|| lcl|U00096.3_cds_249 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS] ||

|| lcl|U00096.3_cds_AAD13438.1_1457 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS] ||

|| lcl|U00096.3_cds_AAD13456.1_3815 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS] ||

|| lcl|U00096.3_cds_AAD13462.1_3987 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS] ||

Всего 4 выведенных названия. Второй, третий и четвертый - гены белков из одного "семейства" - формиатдегидрогеназы. Они очень схожи по последовательности гена, строению, механизму работы. У них всех в названии указано, что есть исключение при трансляции - на позиции с 586 по 588, транслируется этот кодон в селеноцистеин. Это и есть стоп-кодон посреди последовательности.

Первая строка вывода - псевдоген. Это последовательность, гомологичная гену (имеет характерные для гена нуклеотидные паттерны), но с неё не транслируется белок. В нём, как и везде в геноме, происходят мутации, но они здесь с большой вероятностью нейтральные, так как не влияют на структуру каких-либо белков. Вот здесь и присутствует стоп-кодон посреди последовательности. Возможно, что как раз мутация, создавшая стоп-кодон превратила ген в псевдоген. 

'''Задание 3:'''

Результат для 1 бактерии:

TGA 1241

TAA 2756

TAG 303

ATA 1

GAA 1

Результат для 2 бактерии:

TGA 1

TAA 1000

TAG 188

TCT 2

TTA 1

AAA 1

CTT 1

ACA 1

GAA 1


Результат для 3 бактерии:

TGA 0

TAA 531

TAG 210

GTT 1

ACT 1

GTG 1

AAT 2

TTT 1

GAT 1

GGC 2

TAC 1

CGG 1

GGG 1

AAA 1

TGA кодон кодирует триптофан у микоплазм:  воспользовался Ctrl+F в [[https://academic.oup.com/femspd/article/75/3/ftx017/2996644|| статье]]
TGA кодон кодирует глицин у Gracilibacteria: [[https://www.science.org/doi/abs/10.1126/science.1250691||статья]]

Объяснение странного распределения частот разных стоп-кодонов: Может быть биологическая причина и информатическая причина такого распределения. Если биологическая, то видимая нами картина отражает какой-то факт, встречающийся в природе. Информатическая причина - ученые, которые работали с этим геномом где-то ошиблись или чего-то не учли и получили данные, которые не соответствуют реальности, которые мы здесь выявили. Надо заметить, что первая бактерия во много раз лучше изучена, чем две другие, там наверняка многое тщательно проверено и распределение стоп-кодонов выглядит реалистично. У бактерий 2 и 3 намного больший набор выявленных стоп-кодонов.


'''Задание 4:'''
E.coli:

|| '''CTA''' || 5201 || '''CTT''' || 14719 ||
|| '''CTC''' || 14926 || '''TTA''' || 18484 ||
|| '''CTG''' || 71198 || '''TTG''' || 18283 ||

Candidatus Gracilibacteria bacterium 28_42_T64:

|| '''CTA''' || 3357 || '''CTT''' || 9332 ||
|| '''CTC''' || 3968 || '''TTA''' || 14766 ||
|| '''CTG''' || 1714 || '''TTG''' || 3237 ||

Mycoplasma pneumoniae M29:

|| '''CTA''' || 2848 || '''CTT''' || 2797 ||
|| '''CTC''' || 3161 || '''TTA''' || 10295 ||
|| '''CTG''' || 2473 || '''TTG''' || 5601 ||

У всех бактерий видно неравномерное распределение частот встречаемости разных кодонов, кодирующих лейцин. Закономерности, общий для всех трех бактерий не наблюдается. Отбор в пользу одних кодонов по сравнению с другими идёт (раз их частота использования различается в разы), но в разных бактериях по-разному. 

Отбору могут способствовать экология места проживания бактерии в природе, дороговизна некоторых кодонов (например GC богатых) по сравнению с другими. Конкретные причины мне не понятны.

'''Задание 5:'''
[[https://docs.google.com/spreadsheets/d/1JkgT72eFYezVayVGGQwveUcoBl__rozVOLwjM7QuPhM/edit?usp=sharing|Ссылка]] на график GC-skew.
В интернете написано, что точка максимума на графике GC-skew соответствует точке терминации репликации, а минимума - точке начала репликации (ориджину репликации).

= Работа с геномом бактерии: =
''Я выбрал бактерию ''Spiroplasma citri'' из длинного списка за короткое видовое название, дальше я нашел в гугл картинках по запросу "Spiroplasma citri" много красивых фотографий цитрусовых и их листьев - и обрадовался.'' Бактерия вызывает болезнь цитрусовых. Листья сворачиваются, покрываются пятнами, плоды не наливаются соком.



----
КатегорияДомашняяСтраница