Практикум 13
Для выполнения заданий были использованы следующие данные (оригиналы взяты из базы данных NCBI): для Escherichia coli str. K-12 substr. MG1655 (далее E. coli) https://drive.google.com/file/d/1yQUvojCRhhqCqBF7uN_5Z0QdXoZ-JZAK/view?usp=sharing (гены, кодирующие белки), https://drive.google.com/file/d/1Kryo9i9xtQs88Lx4Nww_CpC8xEL3tlCC/view?usp=sharing (геном), https://drive.google.com/file/d/1FteMbbYb44kjU7DTik69buXXBLMKbabJ/view?usp=sharing (характеристики генов и их координаты), для Candidatus Gracilibacteria bacterium 28_42_T64 (далее G. bacterium) https://drive.google.com/file/d/1NvdaTm6UeZfQ0RTrfVk3B2YHNllDHNIc/view?usp=sharing (гены, кодирующие белки), https://drive.google.com/file/d/1O6FwURrnP9KO6gHEL77LgKnZnkQ8j0GI/view?usp=sharing (геном), https://drive.google.com/file/d/1ZIqPq_aqWrzJbnCeO47Tx7klwtAIumCo/view?usp=sharing (характеристики генов и их координаты) и для Mycoplasma pneumoniae M29 (далее M. pneumoniae) https://drive.google.com/file/d/1Zb4zos5MirYZCev5DbAMiLsyhXbrtE2P/view?usp=sharing (гены, кодирующие белки), https://drive.google.com/file/d/1mdf7Slfw2PTCt-lDIgQ484Uyl-npIpIs/view?usp=sharing (геном), https://drive.google.com/file/d/1z1QP5HiojqbPyRbI64P1y-BvYD6lpn0D/view?usp=sharing (характеристики генов и их координаты).
Задание 1
Результаты для E. coli:
Старт-кодон |
ATG |
GTG |
TTG |
ATT |
CTG |
TTC |
Частота |
3890 |
338 |
80 |
4 |
2 |
1 |
Результаты для G. bacterium:
Старт-кодон |
ATG |
GTG |
TTG |
TCT |
TCA |
ACA |
Частота |
1129 |
41 |
23 |
1 |
1 |
1 |
Результаты для M. pneumoniae:
Старт-кодон |
ATG |
GTG |
TTG |
ATT |
ATA |
TTA |
CTC |
CAA |
TCT |
GTT |
GGA |
GAA |
CTG |
ATC |
ACT |
AAA |
Частота |
629 |
60 |
53 |
8 |
4 |
3 |
2 |
2 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
Все результаты были получены с помощью скрипта на языке Python https://drive.google.com/file/d/1t0GOoD9YCZl_kboT0R5Cqvf1DgOhxDco/view?usp=sharing.
Анализ результатов
У всех трех бактерий преобладает классический старт-кодон ATG, однако относительно других часто используются старт-кодоны GTG, TTG, все остальные варианты встречаются редко, а то и вовсе единично. GTG и TTG очень сильно похожи на ATG, отличие лишь в первом нуклеотиде, некоторые более редкие старт-кодоны также отличаются от ATG на 1 нуклеотид, учитывая, что перед старт-кодоном следует регуляторная область, то замена в одном нуклеотиде не столь критична и опасна (возможно такое отклонение в старт-кодоне произошло из-за мутации). С другой стороны, редкие старт-кодоны могут таким образом помечать какой-то очень особенный белок, такая метка может говорить, например, о том, где следует синтезировать этот белок, какой дополнительный аппарат необходим для его синтеза. Единичные старт-кодоны в большинстве случаев (судя по описаниям генов, где они встретились) соответствуют псевдогенам (особенно много таких у M. pneumoniae) и у некоторых даже неизвестны функции кодируемых белков.
Задание 2
Гены, кодирующие белки у E. coli, в которых стоп-кодон встречается не только в конце:
1.>lcl|U00096.3_cds_b4587_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
2.>lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
3.>lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
4.>lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
Все результаты были получены с помощью скрипта на языке Python https://drive.google.com/file/d/1yVZZD4TXpgaPxfWYx-0slEQNcFSYAUCt/view?usp=sharing.
Анализ результатов
Основываясь на описании данных генов, можно сказать, что в первом гене данная ситуация наблюдается, потому что он является псевдогеном (стоп-кодон в другом месте там возник из-за мутации), в остальных же трех генах не концевые стоп-кодоны кодируют нестандартную аминокислоту селеноцистеин.
Задание 3
Результаты для E. coli:
Стоп-кодон |
TAA |
TGA |
TAG |
GAA |
ATA |
Частота |
2761 |
1246 |
306 |
1 |
1 |
Результаты для G. bacterium:
Стоп-кодон |
TAA |
TAG |
TCT |
TTA |
TGA |
GAA |
CTT |
ACA |
AAA |
Частота |
1000 |
188 |
2 |
1 |
1 |
1 |
1 |
1 |
1 |
Результаты для M. pneumoniae:
Стоп-кодон |
TAA |
TAG |
GGG |
TTA |
TAT |
TAC |
GGT |
GAT |
CCC |
ATT |
ATA |
ACT |
AAT |
AAA |
Частота |
533 |
221 |
4 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
Все результаты были получены с помощью скрипта на языке Python https://drive.google.com/file/d/1heB9lm1AOzF9p_daW7Lap0FBP1nBWUjb/view?usp=sharing.
Анализ результатов
У первой бактерии встречаются все три стандартных стоп-кодона. А вот у остальных двух кодон TGA не встречается или единичен. После поиска этого 'пропавшего' стоп-кодона в кодирующих последовательностях у этих бактерий оказалось, что он встречается просто как обычный кодон (был найден в очень большом количестве генов, кодирующих белки, в 1089 у второй бактерии и 545 у третьей). Скорее всего данный стоп-кодон у этих бактерий переназначен, то есть он встречается далеко не в конце кодирующей последовательности и ведет себя как обычный кодон, связывается с тРНК, а не с факторами терминации трансляции, и тем самым кодирует какую-то аминокислоту. Данное предположение основано на следующей научной статье:
Swart Е. С., Serra V., Petroni G., Nowacki M. Genetic Codes with No Dedicated Stop Codon Context-Dependent Translation Termination // Cell. 2016. 166. Р. 691–702.
Задание 4
Результаты для E. coli:
Кодон |
CTG |
TTA |
TTG |
CTC |
CTT |
CTA |
Частота |
71305 |
18505 |
18301 |
14952 |
14728 |
5203 |
Результаты для G. bacterium:
Кодон |
TTA |
CTT |
CTC |
CTA |
TTG |
CTG |
Частота |
14767 |
9333 |
3968 |
3357 |
3237 |
1714 |
Результаты для M. pneumoniae:
Кодон |
TTA |
TTG |
CTC |
CTA |
CTT |
CTG |
Частота |
10308 |
5572 |
3139 |
2852 |
2789 |
2474 |
Все результаты были получены с помощью скрипта на языке Python https://drive.google.com/file/d/1kjVv8rB-0OVTpHQfpaIZMbUHxB314bHj/view?usp=sharing.
Анализ результатов
У лейцина есть две кодоновые семьи: малая (начинаются с TT) и большая (начинаются с CT). Как видно из таблиц с результатами, у E. coli кодоны малой семьи встречаются одинаково по отношению друг к другу, а вот среди кодонов большой семьи сильно доминирует (и относительно малой семьи) один кодон CTG, у G. bacterium есть один доминирующий кодон из каждой семьи (TTA, CTT), остальные встречаются меньше, а у M. pneumoniae все кодоны большой семьи примерно одинаковы по частотам и их мало, а среди кодонов малой семьи преобладает TTA (он доминирует в принципе). Подобные различия в использовании кодонов можно объяснить различным характером мутаций (в пределах одного организма и у разных), какие-то кодоны или семья в целом лучше подвержены мутациям у какого-то организма (следственно они будут встречаться реже). Помимо этого хоть кодоны и кодируют одну и ту же аминокислоту, то есть связываются с одной и той же тРНК, они все-таки могут отличаться по силе связывания, следственно те, что связываются лучше, те и дают на выходе более успешную экспрессию белка в целом (это поддерживает естественных отбором и таких кодонов становится больше). Также в качестве подсчета был взят стандартный генетический код, возможно у этих бактерий есть некоторые отклонения от него, из-за чего редкие кодоны просто соответствуют не лейцину.
Задание 5
Максимум кумулятивного GC-skew соответствует примерно 1513000 позиции, минимум – 3870000. Подсчитано было только для E. coli.
Данные о кумулятивном GC-skew и график находятся в таблице https://docs.google.com/spreadsheets/d/1OLUx5G9ccBvZd1A3xvJ93HSaQC-yAo-xfGauhLvTBsQ/edit?usp=sharing. Значения кумулятивного GC-skew были получены с помощью скрипта на языке Python https://drive.google.com/file/d/1eLNOhobCWP-phtw3MfSV9Wv7_5E5Smi1/view?usp=sharing.
Анализ результатов
Позиция минимума кумулятивного GC-skew соответствуют примерной позиции ориджина (oriC) репликации, позиция максимума – примерной позиции терминатора репликации. Найденная таким образом позиция ориджина примерно сходится с указанной в таблице особенностей генома данной бактерии (отличие на порядка 55000 нуклеотидов).
Задание 6
В данном задании были взяты последовательности длиной 20 нуклеотидов перед каждым геном, кодирующим белок на '+' цепи ДНК (комплементарная не учитывалась).
Наиболее часто встречающиеся 6-меры у E. coli:
6-мер |
AAGGAG |
TAAGGA |
AGGAGA |
AAGGAA |
AAAGGA |
CAGGAG |
Частота |
175 |
153 |
123 |
114 |
114 |
112 |
Наиболее часто встречающиеся 6-меры у G. bacterium:
6-мер |
AAATAA |
TAAAAA |
AATAAA |
AAAAAA |
ATAAAA |
TAAATA |
Частота |
93 |
90 |
88 |
87 |
83 |
76 |
Наиболее часто встречающиеся 6-меры у M. pneumoniae:
6-мер |
AATTAA |
AAAGGA |
TTTAAA |
ATTTAA |
ATTAAA |
AAGGAG |
Частота |
36 |
34 |
33 |
26 |
26 |
26 |
Полный список всех найденных 6-меров и их частот находится в таблице https://docs.google.com/spreadsheets/d/1iDPAFhMrS-Pm1iXY6uX08_ak2YYrcFh2AXs4A4No4SY/edit?usp=sharing. 6-меры были подсчитаны с помощью скрипта на языке Python https://drive.google.com/file/d/1uRLgr8D1XOVOrySh0NGFqEQGPA1Gn9NQ/view?usp=sharing.
Анализ результатов
Из результатов видно, что чаще всего встречаются 6-меры, богатые парами AA, AT, GG, GA, AG, TT, TA, такие последовательности соответствуют очень похожи на консенсусную последовательность Шайна-Дальгарно, которая как раз и расположена примерно среди 20 нуклеотидов до старт-кодона, эта последовательность необходима мРНК для инициации трансляции, вот почему именно таких 6-меров больше всего.