Kodomo

Пользователь

Практическая работа 13

Задание 1

Результаты

Ниже представлены три таблицы, которые содержат информацию о числе всех старт кодонов, найденных в геноме трех различных бактерий. Результаты получены с помощью сценария на Python: https://github.com/Vetrov-Anton/pr14/blob/d61cb46da3993796f056afa0ef6261d3adf094f7/task1.py

1. Escherichia coli str. K-12 substr. MG1655

ATG

GTG

TTG

ATT

CTG

TTC

3890

338

80

4

2

1

2. Candidatus Gracilibacteria bacterium 28_42_T64

ATG

GTG

TTG

ACA

TCA

TCT

1129

41

23

1

1

1

3. Mycoplasma pneumoniae M29

ATG

GTG

TTG

ATT

ATA

TTA

CAA

CTC

AAA

ACT

ATC

CTG

GAA

GGA

GTT

TCT

629

60

53

8

4

3

2

2

1

1

1

1

1

1

1

1

Обсуждение

Исходя из представленных данных, видно, что наиболее распространенным старт-кодоном является канонический ATG. Кроме того, довольно большую долю от всех старт-кодонов составляют GTG и TTG, которые, по-видимому, у прокариот тоже могут функционировать как старт-кодоны. Остальные же кодоны били встречены в составе псевдогенов, у которых произошла делеция со стороны 5'-конца, и стандартный старт-кодон утратился. Вдобавок, необычные старт-кодоны могли возникнуть в результате ошибок секвенирования генома.

Задание 2

Результаты

Ниже представлены 4 найденных гена, в которых где-то в середине содержится хотя бы один из трех канонических стоп кодонов. Данные гены найдены с помощью скрипта на Python: https://github.com/Vetrov-Anton/pr14/blob/382ab037cba6f4fd0fc9f73e4acbdc3338bfedbb/task2.py

1. Escherichia coli str. K-12 substr. MG1655

1. lcl|U00096.3_cds_b4587_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS].

2. lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS].

3. lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS].

4. lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS].

Обсуждение

Первый ген является псевдогеном - некогда рабочим геном, у которого в результате мутации где-то в середине возник стоп-кодон. Остальные три гена являются рабочими, то есть стоп-кодон кодирует одну из неканонических аминокислот - селеноцистеин.

Задание 3

Результаты

Ниже представлены три таблицы, в которых дана информация о частоте встречаемости стоп-кодонов у трех различных бактериях. Задание выполнено с помощью сценария на Python: https://github.com/Vetrov-Anton/pr14/blob/d61cb46da3993796f056afa0ef6261d3adf094f7/task3.py

1. Escherichia coli str. K-12 substr. MG1655

TAA

TGA

TAG

ATA

GAA

2761

1246

306

1

1

2. Candidatus Gracilibacteria bacterium 28_42_T64

TAA

TAG

TCT

AAA

ACA

CTT

GAA

TGA

TTA

1000

188

2

1

1

1

1

1

1

3. Mycoplasma pneumoniae M29

TAA

TAG

GGG

AAA

AAT

ACT

ATA

ATT

CCC

GAT

GGT

TAC

TAT

TTA

533

221

4

1

1

1

1

1

1

1

1

1

1

1

Обсуждение

У всех трех бактериях присутствуют типичные стоп-кодоны TAA и TAG, но у G. bacterium и M. pneumoniae отсутствует третий стандартный стоп-кодон TGA. Согласно исследованиям, TGA у G. bacterium кодирует глицин [1], а у M. pneumoniae - триптофан[2].

1. Hanke, Anna; Hamann, Emmo; Sharma, Ritin; Geelhoed, Jeanine S.; Hargesheimer, Theresa; Kraft, Beate; Meyer, Volker; Lenk, Sabine; Osmers, Harald; Wu, Rong; Makinwa, Kofi (2014-05-16). "Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat". Frontiers in Microbiology. 5: 231. doi:10.3389/fmicb.2014.00231. ISSN 1664-302X. PMC 4032931. PMID 24904545 (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4032931/)

2. Weisburg WG, Tully JG, Rose DL, Petzel JP, Oyaizu H, Yang D, et al. (December 1989). "A phylogenetic analysis of the mycoplasmas: basis for their classification". Journal of Bacteriology. 171 (12): 6455–67. doi:10.1128/jb.171.12.6455-6467.1989. PMC 210534. PMID 2592342. (https://digitalcommons.unl.edu/cgi/viewcontent.cgi?referer=https://en.wikipedia.org/&httpsredir=1&article=1315&context=publichealthresources)

Задание 4

Результаты

Число лейциновых кодонов подсчитывалось с помощью скрипта на Python: https://github.com/Vetrov-Anton/pr14/blob/f26ac4e4d3bd6bc645b0db95a272491a28b4431e/task4.py

1. Escherichia coli str. K-12 substr. MG1655

CTG

TTA

TTG

CTC

CTT

CTA

71305

18505

18301

14952

14728

5203

2. Candidatus Gracilibacteria bacterium 28_42_T64

TTA

CTT

CTC

CTA

TTG

CTG

14767

9333

3968

3357

3237

1714

3. Mycoplasma pneumoniae M29

TTA

TTG

CTC

CTA

CTT

CTG

10308

5572

3139

2852

2789

2474

Обсуждение

1) Неодинаковая частота лейциновых кодонов в пределах одного организма может быть связанна с неодинаковым числом копий генов соответствующих тРНК. Чем больше число копий генов определенной тРНК, тем больше её кодонов встречается в геноме, и, наоборот, чем меньше число копий генов определенной тРНК, тем меньшей её кодонов в геноме. Если предположить, что описанное выше соотношение не выполнено, то скорость трансляции будет существенно ниже из-за неоптимального соотношения числа определенной тРНК к её кодону в геноме. Таким образом, число копий генов тРНК и встречаемость соответствующих им кодонов находятся в своего рода коэволюции. 2) Другой причиной разной частоты кодонов, кодирующих лейцин, у разных организмов может быть GC-состав всего генома конкретного организма. Так, например, если в целом у организма высокий GC-состав, то и число использований GC-богатых кодонов лейцина будет выше, и, наоборот, если в целом у организма низкое содержание GC-пар, то и число использований GC-богатых кодонов будет ниже.

Задание 5

Результаты

1. Escherichia coli str. K-12 substr. MG1655

Для E. coli была построена зависимость кумулятивного GC-Scew от координаты в геноме. График и данные, полученные на выходе, можно посмотреть по ссылке: (см. лист GC-Scew_1) https://docs.google.com/spreadsheets/d/172yPesa8y2uHot36BNvrmNvM5Eo3reAtiT6i8ULnWD0/edit?usp=sharing

Код программы на Python лежит здесь: https://github.com/Vetrov-Anton/pr14/blob/d61cb46da3993796f056afa0ef6261d3adf094f7/task5.py

Ниже в таблице представлены две координаты, отвечающие максимальному и минимальному значению кумулятивного GC-Scew.

Координата

Кумулятивный GC-Scew

MAX

1513000

47,733

MIN

3870000

-28,328

Обсуждение

Точка минимума кумулятивного GC-Scew соответствует месту начала репликации(ориджину репликации), а точка максимума - месту её терминации. Согласно данным из genbank, ориджину репликации соответствует интервал 3925744-3925975, что отличается от теоретически предсказанного примерно на 1,4%.

Задание 6

Результаты

Ниже представлены три таблицы для каждого из трех видов бактерий, в которых указаны 10 наиболее распространенных подпоследовательностей последовательностей, расположенных на участке из 20 нуклеотидов перед старт-кодоном кодирующих белок генов. В ходе подсчета использовались только CDS, расположенные на прямой цепи ДНК.

Задание выполнено с помощью сценария на Python: https://github.com/Vetrov-Anton/pr14/blob/8ed5585c6a421532f734a7d720422992fb6e1007/task6.py

Подробные сводные данные по всем 6 нуклеотидным подпоследовательностям можно посмотреть в таблице:(см. листы SD_1, SD_2 и SD_3 для соответствующих номеров бактерий) https://docs.google.com/spreadsheets/d/172yPesa8y2uHot36BNvrmNvM5Eo3reAtiT6i8ULnWD0/edit?usp=sharing

1. Escherichia coli str. K-12 substr. MG1655

AAGGAG

TAAGGA

AGGAGA

AAAGGA

AAGGAA

CAGGAG

AGGAGT

GGAGAA

AGGAAA

ACAGGA

175

155

123

115

115

112

105

97

90

82

2. Candidatus Gracilibacteria bacterium 28_42_T64

TAAAAA

AAATAA

AATAAA

AAAATA

ATAAAA

TAAATA

TTTTTA

AAAAAT

TAATAA

ATTTTT

96

94

90

86

86

75

75

70

70

69

3. Mycoplasma pneumoniae M29

AATTAA

AAAGGA

TTTAAA

ATTAAA

ATTTAA

TAAAAA

AATTTA

AAGGAG

AGAAAG

TTAAAA

40

34

34

28

27

27

26

26

25

25

Обсуждение

Наиболее часто встречающимися последовательностями из 6 нуклеотидов являются AAGGAG, TAAAAA и AATTAA соответственно для бактерий E. coli, G. bacterium и M. pneumoniae. Таким образом, в составе двадцати нуклеотидной последовательности перед старт кодоном для каждой бактерии можно выделить некоторую консервативную подпоследовательность из 6 нуклеотидов, которая, по-видимому, играет важную роль в экспрессии большинства генов. И действительно, оказывается, что с этой последовательность связывается рибосома для инициации трансляции. В честь первооткрывателей эту последовательность назвали последовательностью Шайна-Дальгарно.

Users/anton.vetrov/pr13 (последним исправлял пользователь anton.vetrov 2023-12-20 13:30:28)