Лактозный промотор - часть лактозного оперона прокариот, кодирующего гены метаболизма лактозы (рис. 1). Промотор указывает РНК-полимеразе место на ДНК, с которого нужно начинать транскрипцию мРНК этих генов. Особенность лактозного оперона заключается в том, что синтез его генов происходит только в том случае, если клетка испытывает недостаток глюкозы, а в окружающей среде есть лактоза.
Если эти условия не выполнены, транскрипция генов заблокирована белком-репрессором, связывающимся с операторным участком, который следует сразу за промоторным и частично перекрывается с сним (рис. 2). Если же в клетке недостаточно глюкозы, но есть лактоза, репрессор диссоциирует (под действием лактозы, попавшей в клетку из окружающей среды) и РНК-полимераза свободно синтезирует гены, кодирующие ферменты для метаболизма лактозы.
На эффективность сигнала также влияет низкое сродство РНК-полимеразы к лактозному промотору (даже в отсутсвтие белка-репрессора). При снижении концентрации глюкозы в клетке происходит синтес цАМФ, которая в комплексе с белком CAP (catabolism activating protein) изменяет конформацию лактозного промотора и повышает его сродство к РНК-полимеразе.
Получается, что эффективность сигнала напрямую зависит от концентрации глюкозы, поэтому сигнал низко эффективен.
1) Википедия: Лактозный оперон
2) Reznikoff WS. The lactose operon-controlling elements: a complex paradigm. Mol Microbiol. 1992 Sep;6(17):2419-22. doi: 10.1111/j.1365-2958.1992.tb01416.x. PMID: 1328815.
3) The lac operon, Khan academy.
Для изучения был выбран последоваателбность Козак человека. Для выполнения использовался скрипт, написанный Георгием Муравьевым.
Полученные файлы:
Из файла result.csv вычленил PWM:
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -0.37 | -0.36 | -0.37 | -0.21 | 0.35 | 0.02 | -0.44 | 1.22 | -6.60 | -6.60 | -0.34 | 0.16 | 0-0.62 |
T | -0.29 | -0.43 | -0.39 | -0.7 | -1.06 | -0.79 | -1.35 | -6.60 | 1.22 | -6.60 | -0.61 | -0.3 | -0.39 |
G | 0.25 | 0.59 | 0.25 | 0.33 | 0.57 | 0.11 | 0.39 | -6.24 | -6.24 | 1.58 | 0.81 | -0.1 | 0.66 |
C | 0.43 | 0.12 | 0.49 | 0.48 | -0.55 | 0.49 | 0.74 | -6.24 | -6.24 | -6.24 | -0.2 | 0.52 | 0.18 |
Далее скрипт по данным PWM посчитал веса последовательностей и составил гистограмму. По результату порог веса выберем 5, выше него принимаем находку верной.
Далее по выдаче result.csv составил таблицу проверок находок:
Обучение | Положительынй контроль | Отрицательный контроль | |
Сигнал(+) | 377 (75.4%) | 357 (71.4%) | 177 (35.4%) |
Сигнал(-) | 123 (24.6%) | 143 (28.6%) | 323 (64.6%) |
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -0.08 | -0.09 | -0.08 | -0.03 | 0.26 | 0.02 | -0.13 | 1.76 | 0.00 | 0.00 | -0.1 | -0.05 | -0.12 |
T | -0.1 | -0.11 | -0.12 | -0.15 | -0.15 | -0.16 | -0.15 | -0.00 | 1.76 | -0.00 | -0.14 | -0.14 | -0.09 |
G | 0.12 | 0.36 | 0.13 | 0.09 | 0.32 | 0.00 | 0.12 | 0.00 | 0.00 | 2.29 | 0.58 | 0.01 | 0.25 |
C | 0.14 | -0.02 | 0.16 | 0.24 | -0.10 | 0.32 | 0.54 | 0.00 | 0.00 | 0.00 | -0.07 | 0.32 | 0.05 |
IC(j) | 0.07 | 0.14 | 0.09 | 0.14 | 0.32 | 0.19 | 0.37 | 1.76 | 1.76 | 2.29 | 0.27 | 0.13 | 0.10 |
Для работы выбрал штамм Escherichia coli O157:H7 str. Sakai. Подсчет осуществлялся с помощью скрипта Петра Милейко. Сначала была посчитана длина генома - 5594768 нуклеотидов и кол-во сайтов 801. По посчитаным частотам каждого нуклеотида в GAATC высчитывается выероятность появления исследуемого сайта, результат - 0,000239. После чего подсчитлось мат. ожидание кол-ва сайтов - 1339.08. Для подтверждения достоверности различия между мат. ожидаем и кол-вом сайтов использовался односторонний z-тест. P-value оказалось равным 2.51e-49, значение маленькое, отличие можно считать статистически значимым.