Практическая работа 13
Задание 1
Результаты
Ниже представлены три таблицы, которые содержат информацию о числе всех старт кодонов, найденных в геноме трех различных бактерий. Результаты получены с помощью сценария на Python: https://github.com/Vetrov-Anton/pr14/blob/d61cb46da3993796f056afa0ef6261d3adf094f7/task1.py
1. Escherichia coli str. K-12 substr. MG1655
ATG |
GTG |
TTG |
ATT |
CTG |
TTC |
3890 |
338 |
80 |
4 |
2 |
1 |
2. Candidatus Gracilibacteria bacterium 28_42_T64
ATG |
GTG |
TTG |
ACA |
TCA |
TCT |
1129 |
41 |
23 |
1 |
1 |
1 |
3. Mycoplasma pneumoniae M29
ATG |
GTG |
TTG |
ATT |
ATA |
TTA |
CAA |
CTC |
AAA |
ACT |
ATC |
CTG |
GAA |
GGA |
GTT |
TCT |
629 |
60 |
53 |
8 |
4 |
3 |
2 |
2 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
Обсуждение
Исходя из представленных данных, видно, что наиболее распространенным старт-кодоном является канонический ATG. Кроме того, довольно большую долю от всех старт-кодонов составляют GTG и TTG, которые, по-видимому, у прокариот тоже могут функционировать как старт-кодоны. Остальные же кодоны били встречены в составе псевдогенов, у которых произошла делеция со стороны 5'-конца, и стандартный старт-кодон утратился. Вдобавок, необычные старт-кодоны могли возникнуть в результате ошибок секвенирования генома.
Задание 2
Результаты
Ниже представлены 4 найденных гена, в которых где-то в середине содержится хотя бы один из трех канонических стоп кодонов. Данные гены найдены с помощью скрипта на Python: https://github.com/Vetrov-Anton/pr14/blob/382ab037cba6f4fd0fc9f73e4acbdc3338bfedbb/task2.py
1. Escherichia coli str. K-12 substr. MG1655
1. lcl|U00096.3_cds_b4587_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS].
2. lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS].
3. lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS].
4. lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS].
Обсуждение
Первый ген является псевдогеном - некогда рабочим геном, у которого в результате мутации где-то в середине возник стоп-кодон. Остальные три гена являются рабочими, то есть стоп-кодон кодирует одну из неканонических аминокислот - селеноцистеин.
Задание 3
Результаты
Ниже представлены три таблицы, в которых дана информация о частоте встречаемости стоп-кодонов у трех различных бактериях. Задание выполнено с помощью сценария на Python: https://github.com/Vetrov-Anton/pr14/blob/d61cb46da3993796f056afa0ef6261d3adf094f7/task3.py
1. Escherichia coli str. K-12 substr. MG1655
TAA |
TGA |
TAG |
ATA |
GAA |
2761 |
1246 |
306 |
1 |
1 |
2. Candidatus Gracilibacteria bacterium 28_42_T64
TAA |
TAG |
TCT |
AAA |
ACA |
CTT |
GAA |
TGA |
TTA |
1000 |
188 |
2 |
1 |
1 |
1 |
1 |
1 |
1 |
3. Mycoplasma pneumoniae M29
TAA |
TAG |
GGG |
AAA |
AAT |
ACT |
ATA |
ATT |
CCC |
GAT |
GGT |
TAC |
TAT |
TTA |
533 |
221 |
4 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
Обсуждение
У всех трех бактериях присутствуют типичные стоп-кодоны TAA и TAG, но у G. bacterium и M. pneumoniae отсутствует третий стандартный стоп-кодон TGA. Согласно исследованиям, TGA у G. bacterium кодирует глицин [1], а у M. pneumoniae - триптофан[2].
1. Hanke, Anna; Hamann, Emmo; Sharma, Ritin; Geelhoed, Jeanine S.; Hargesheimer, Theresa; Kraft, Beate; Meyer, Volker; Lenk, Sabine; Osmers, Harald; Wu, Rong; Makinwa, Kofi (2014-05-16). "Recoding of the stop codon UGA to glycine by a BD1-5/SN-2 bacterium and niche partitioning between Alpha- and Gammaproteobacteria in a tidal sediment microbial community naturally selected in a laboratory chemostat". Frontiers in Microbiology. 5: 231. doi:10.3389/fmicb.2014.00231. ISSN 1664-302X. PMC 4032931. PMID 24904545 (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4032931/)
2. Weisburg WG, Tully JG, Rose DL, Petzel JP, Oyaizu H, Yang D, et al. (December 1989). "A phylogenetic analysis of the mycoplasmas: basis for their classification". Journal of Bacteriology. 171 (12): 6455–67. doi:10.1128/jb.171.12.6455-6467.1989. PMC 210534. PMID 2592342. (https://digitalcommons.unl.edu/cgi/viewcontent.cgi?referer=https://en.wikipedia.org/&httpsredir=1&article=1315&context=publichealthresources)
Задание 4
Результаты
Число лейциновых кодонов подсчитывалось с помощью скрипта на Python: https://github.com/Vetrov-Anton/pr14/blob/f26ac4e4d3bd6bc645b0db95a272491a28b4431e/task4.py
1. Escherichia coli str. K-12 substr. MG1655
CTG |
TTA |
TTG |
CTC |
CTT |
CTA |
71305 |
18505 |
18301 |
14952 |
14728 |
5203 |
2. Candidatus Gracilibacteria bacterium 28_42_T64
TTA |
CTT |
CTC |
CTA |
TTG |
CTG |
14767 |
9333 |
3968 |
3357 |
3237 |
1714 |
3. Mycoplasma pneumoniae M29
TTA |
TTG |
CTC |
CTA |
CTT |
CTG |
10308 |
5572 |
3139 |
2852 |
2789 |
2474 |
Обсуждение
1) Неодинаковая частота лейциновых кодонов в пределах одного организма может быть связанна с неодинаковым числом копий генов соответствующих тРНК. Чем больше число копий генов определенной тРНК, тем больше её кодонов встречается в геноме, и, наоборот, чем меньше число копий генов определенной тРНК, тем меньшей её кодонов в геноме. Если предположить, что описанное выше соотношение не выполнено, то скорость трансляции будет существенно ниже из-за неоптимального соотношения числа определенной тРНК к её кодону в геноме. Таким образом, число копий генов тРНК и встречаемость соответствующих им кодонов находятся в своего рода коэволюции. 2) Другой причиной разной частоты кодонов, кодирующих лейцин, у разных организмов может быть GC-состав всего генома конкретного организма. Так, например, если в целом у организма высокий GC-состав, то и число использований GC-богатых кодонов лейцина будет выше, и, наоборот, если в целом у организма низкое содержание GC-пар, то и число использований GC-богатых кодонов будет ниже.
Задание 5
Результаты
1. Escherichia coli str. K-12 substr. MG1655
Для E. coli была построена зависимость кумулятивного GC-Scew от координаты в геноме. График и данные, полученные на выходе, можно посмотреть по ссылке: (см. лист GC-Scew_1) https://docs.google.com/spreadsheets/d/172yPesa8y2uHot36BNvrmNvM5Eo3reAtiT6i8ULnWD0/edit?usp=sharing
Код программы на Python лежит здесь: https://github.com/Vetrov-Anton/pr14/blob/d61cb46da3993796f056afa0ef6261d3adf094f7/task5.py
Ниже в таблице представлены две координаты, отвечающие максимальному и минимальному значению кумулятивного GC-Scew.
|
Координата |
Кумулятивный GC-Scew |
MAX |
1513000 |
47,733 |
MIN |
3870000 |
-28,328 |
Обсуждение
Точка минимума кумулятивного GC-Scew соответствует месту начала репликации(ориджину репликации), а точка максимума - месту её терминации. Согласно данным из genbank, ориджину репликации соответствует интервал 3925744-3925975, что отличается от теоретически предсказанного примерно на 1,4%.
Задание 6
Результаты
Ниже представлены три таблицы для каждого из трех видов бактерий, в которых указаны 10 наиболее распространенных подпоследовательностей последовательностей, расположенных на участке из 20 нуклеотидов перед старт-кодоном кодирующих белок генов. В ходе подсчета использовались только CDS, расположенные на прямой цепи ДНК.
Задание выполнено с помощью сценария на Python: https://github.com/Vetrov-Anton/pr14/blob/8ed5585c6a421532f734a7d720422992fb6e1007/task6.py
Подробные сводные данные по всем 6 нуклеотидным подпоследовательностям можно посмотреть в таблице:(см. листы SD_1, SD_2 и SD_3 для соответствующих номеров бактерий) https://docs.google.com/spreadsheets/d/172yPesa8y2uHot36BNvrmNvM5Eo3reAtiT6i8ULnWD0/edit?usp=sharing
1. Escherichia coli str. K-12 substr. MG1655
AAGGAG |
TAAGGA |
AGGAGA |
AAAGGA |
AAGGAA |
CAGGAG |
AGGAGT |
GGAGAA |
AGGAAA |
ACAGGA |
175 |
155 |
123 |
115 |
115 |
112 |
105 |
97 |
90 |
82 |
2. Candidatus Gracilibacteria bacterium 28_42_T64
TAAAAA |
AAATAA |
AATAAA |
AAAATA |
ATAAAA |
TAAATA |
TTTTTA |
AAAAAT |
TAATAA |
ATTTTT |
96 |
94 |
90 |
86 |
86 |
75 |
75 |
70 |
70 |
69 |
3. Mycoplasma pneumoniae M29
AATTAA |
AAAGGA |
TTTAAA |
ATTAAA |
ATTTAA |
TAAAAA |
AATTTA |
AAGGAG |
AGAAAG |
TTAAAA |
40 |
34 |
34 |
28 |
27 |
27 |
26 |
26 |
25 |
25 |
Обсуждение
Наиболее часто встречающимися последовательностями из 6 нуклеотидов являются AAGGAG, TAAAAA и AATTAA соответственно для бактерий E. coli, G. bacterium и M. pneumoniae. Таким образом, в составе двадцати нуклеотидной последовательности перед старт кодоном для каждой бактерии можно выделить некоторую консервативную подпоследовательность из 6 нуклеотидов, которая, по-видимому, играет важную роль в экспрессии большинства генов. И действительно, оказывается, что с этой последовательность связывается рибосома для инициации трансляции. В честь первооткрывателей эту последовательность назвали последовательностью Шайна-Дальгарно.