Сигналы и мотивы

Сайт распознавания NarP

NarP - транскрипционный фактор анаэробных бактерий, ответственный за регуляцию их метаболизма. Когда концентрация нитратов и нитритов в среде возрастает, киназы NarQ и NarX активируют фосфорилируют этот фактор, что приводит к его активации. Активированный NarP промотирует транскрипцию группы оперонов, связанных с нитритным и нитратным дыханиями (narGHI, narK, nap, nir и nrf), а также дегидрогеназ (nuo, hya и fdnGHI). В то же время фактор NarP может угнетать транскрипцию генов других типов анаэробного дыхания (dms, focA-pflB, torCAD, dcuB-FuMB и frd). NarP распознает 16-нуклеотидный палиндромный сайт с консенсусным TACYYMT-2-AKRRGTA.[1,2]

Хотя известно, что NarP слабо активирует транскрипцию некоторых промоторов, эффективность этого сигнала точно не известна, однако могу предположить (основываясь в том числе на эти косвенные доказательства), что он не сильноэффекитвный, так как он регулирует метаболические пути не только положительным, но и отрицательным образом. Высокая эффективность этого сигнала блокировала бы все другие варианты анаэробного дыхания кроме нитратного, что мешало бы бактериям эффективно переключаться на другие субстраты (допустим, при ложном сигнале об изменении концентрации нитратов в среде клетка сразу "перестроится" исключительно на нитратное дыхание, тогда для возвращения к исходному состоянию инактивированного транскрипционного фактора необходимо время, что лишило бы бактерию конкурентного преимущества).

Последовательность Козак в геноме человека

Для построения PWM использовался скрипт Муравьева Георгия, который получает на вход табулированный геном человека, выбирает области с позициями -7 - -4 для случайных последовательностей. Они идут на составление обучающей выборки, итестовой выборки. Кроме того, скрипт составляет выборку отрицательного контроля. Ссылка на полученную PWM матрицу.

tree

Рис.1.Распределение весов последовательностей

Распределения положительного контроля (тестовой выборки) и обучения похожи, распределение отрицательного контроля сдвинуто влево.

При пороге веса 5 результаты проверки находок.

Полученная IC матрица

tree

Рис.2.LOGO для последовательности Козак в геноме человека

Представленное выше лого (рис.2) демонстрирует полную консервативность старт-кодона. Его окружение представленно в основном цитозином и гуанином в 4 позициях, предшествующих старт-кодону, однако никакого достаточно консервативного участка выделить невозможно.

число сайтов GAATTC в полном геноме одного штамма E.coli

Для анализа был взят штамм Escherichia coli str. K-12 substr. MG1655. Скрипт был взят у Муравьева Георгия. В результате были получены 646 сайтов GAATTC в геноме, при условии того, что ожидаемое число таких сайтов - 1097. Данное отличие является статистически значимым, так как p-value составило 1.77⋅10^-49.

Список литературы

1. A.V.Favorov, M.S.Gelfand, A.V.Gerasimova, D.A.Ravcheev, A.A.Mironov, V.J.Makeev, A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length, Bioinformatics, Volume 21, Issue 10, May 2005, Pages 2240–2245, https://doi.org/10.1093/bioinformatics/bti336

2. Darwin, A.J., et al. 1997Differential regulation by the homologous response regulators NarL and NarP of Escherichia coli K-12 depends on DNA binding site arrangement. Mol. Microbiol.25583–595

© Тумбинский Роман, ФББ МГУ, 2022