Практикум 13
Задание 1
|
Результаты |
Escherichia coli str. K-12 substr. MG1655 |
ATG 3883 ATT 4 CTG 2 GTG 334 TTC 1 TTG 78 |
Candidatus Gracilibacteria bacterium 28_42_T64 |
ACA 1 ATG 1129 GTG 41 TCA 1 TCT 1 TTG 23 |
Mycoplasma pneumoniae M29 |
ACC 2 ATA 2 ATC 3 ATG 634 ATT 4 CTG 4 GTG 62 GTT 1 TTA 2 TTG 40 |
У всех бактерий ATG старт кодон встречается наиболее часто. Следующим по встречаемости был кодон GTG, а после него - TTG. Они отличаются от ATG всего одним нуклеотидом. Большинство кодонов, встретившихся только один раз, согласно описанию начинают цепочки псевдогенов. И всё-таки не только ATG может быть старт кодоном. Попробую предположить из-за чего это происходит. Возможно, это происходит из-за того, что:
- участок кодирующей последовательности с ATG был утрачен, и стартовыми стали следующие за ним
- у бактерий функциональной единицей генома является оперон, то есть последовательности, кодирующие белки для одного процесса, объединены одним промотором, и тогда другие старт кодоны тоже оказываются удобны
- есть влияние тРНК, может, независимо от старт кодона, первая тРНК доставит к месту синтеза метионин
- малая субъединица рибосомы прикрепляются к последовательности мРНК несколько раньше положения старт кодона, и тогда рамка считывания варьируется
- изменение рамки считывания для контроля механизма транскрипции, например, присутствует внутренняя инициация для получения ещё одного продукта
- есть факторы, подавляющие ATG инициацию
- белки, контролирующие транскрипция, способны распознавать не только ATG как старт кодон
Задание 2
Результаты
1 |
lcl|U00096.3_cds_249 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS] |
2 |
lcl|U00096.3_cds_AAD13438.1_1457 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS] |
3 |
lcl|U00096.3_cds_AAD13456.1_3815 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS] |
4 |
lcl|U00096.3_cds_AAD13462.1_3987 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS] |
У первой бактерии нашлось 4 такие последовательности. Согласно описанию, первая из них является псевдогеном, то есть не кодирует полипептид и рамка считывания сбита, поэтому стоп кодон встретился не в конце; вторая последовательность кодирует белок не целиком, а только его часть (subunit), думаю, поэтому синтез прерывается раньше. Оставшиеся две последовательности кодируют белки, но информация о них лежит на комплементарной цепи, где стоп кодонам соответствуют кодоны, кодирующие Ile или Thr.
Задание 3
|
Escherichia coli str. K-12 substr. MG1655 |
Candidatus Gracilibacteria bacterium 28_42_T64 |
Mycoplasma pneumoniae M29 |
TGA |
1241 |
1 |
0 |
TAA |
2756 |
1000 |
531 |
TAG |
303 |
188 |
210 |
У второй бактерии TGA встретился в конце кодирующей последовательности только 1 раз, а у третьей бактерии он не встретился вовсе. Но если целенаправленно искать именно этот кодон, в результате будет большое число позиций не в конце цепи. Значит, можно предположить, что у них TGA не является стоп кодоном, а кодирует аминокислоту, а также, значит, есть соответствующие тРНК, которые распознают этот триплет. Подтверждения этому можно найти здесь для второй бактерии и здесь для третьей бактерии. У второй бактерии TGA кодирует глицин, а у третьей - триптофан.
Задание 4
|
Escherichia coli str. K-12 substr. MG1655 |
Candidatus Gracilibacteria bacterium 28_42_T64 |
Mycoplasma pneumoniae M29 |
TTA |
18484 |
14767 |
10302 |
TTG |
18283 |
3237 |
5601 |
CTT |
14719 |
9333 |
2798 |
CTC |
14926 |
3968 |
3161 |
CTA |
5201 |
3357 |
2848 |
CTG |
71198 |
1714 |
2473 |
Полученные результаты свидетельствуют о том, что в ДНК каждой бактерии есть тенденция к использованию только одного кодона и избегание других, хотя всего кодонов, кодирующих лейцин, шесть. Но среди разных бактерий кодоны, которых больше всего, различны. Попробую предположить, что в пределах одной бактерии разница в частоте использования кодонов обусловлена тем, что использование одного кодона ускоряет процесс синтеза белка, так как требуются одни и те же тРНК. В пределах разных бактерий это может быть вызвано отбором и тем, каких нуклеотидов в данных условиях было больше.
Задание 5
Результаты: График зависимости На первом листе находится таблица с результатом работы программы и расчётами, на втором - график. Минимум cumulative GC-skew соответствует месту начала репликации (oriC), а максимум - месту конца репликации (ter). У данной бактерии минимальное значение cumulative GC-skew равно -28,328 и соответствует 3 870 000 позиции, максимальное значение равно 47, 733 и соответствует 1 513 000 позиции. Примерно там же находятся oriC и ter, что соответствует данным из с ресурса.
Источники: Lu J, Salzberg SL (2020) SkewIT: The Skew Index Test for large-scale GC Skew analysis of bacterial genomes. PLOS Computational Biology 16(12): e1008439. https://doi.org/10.1371/journal.pcbi.1008439
Arakawa K, Tomita M. The GC skew index: a measure of genomic compositional asymmetry and the degree of replicational selection. Evol Bioinform Online. 2007 Sep 6;3:159-68. PMID: 19461976; PMCID: PMC2684130.
Задание 6
(скрипт, считающий 6-меры, сохранён в блокноте colab)
Чаще всего встретились 6-меры, в основном содержащие нуклеотиды A и T. Затрудняюсь сказать с чём это связано, но из-за того, что данные 6-меры считались в небольшом промежутке до старт кодона, предположу, что это связано с регуляцией транскрипции, возможно, при большом количестве нуклеотидов A и T легче разъединить цепочки ДНК, так как нуклеотиды A и T соединены только двумя водородными связями, в то время как G и C - тремя.