Сигнал ядерной локализации (nuclear localization signal, NLS) — специфическая аминокислотная последовательность являющаяся местом узнавания белка транспортными факторами, которые переносят его в ядро (кариоферины).
Целью сигнала является обеспечение транспорта белков, которые должны функционировать в ядре, такие как факторы транскрипции или ферменты репарации ДНК. Эффективность сигнала NLS может варьироваться в зависимости от конкретной последовательности и белка, к которому он присоединен. В целом, сигнал NLS достаточно эффективен, поскольку большинство белков, содержащих функциональный NLS, транспортируются в ядро. Некоторые белки могут иметь дополнительные сигналы, влияющие на их локализацию, или у них могут быть мутации в NLS, влияющие на их способность транспортироваться в ядро.
1. Выбрал последовательность Шайна-Далгарно перед стартом трансляции генов в геноме E.coli штамма K-12 подштамм MG1655.
2. По геному и хромосомной таблице (RefSeq ID GCF_000005845.2) с помощью скрипта (автор Андрей Малышев) были получены последовательности перед генами длиной 20 нт (4298 штук). Это материал обучения. Последовательность Шайна-Далгарно обычно располагается на расстоянии около 10 нуклеотидов до старт кодона (Kapp et al., 2004), характерной является последовательность AGGAGG. Для выравнивания без гэпов программа Jalview показывает следующий консенсус
Важно понимать, что консенсус представляет собой последовательность из самых частовстречающихся букв на каждой позиции, поэтому это нормально, что он отличается от самой последовательности Шайна-Далгарно (AGGAGG). Насколько я понимаю, т.к. у AGGAGG нет четкой позиции, то АGGGGA это как раз её усредненная картина (представьте, что AGGAGG двигается на 1-2 нуклеотида влево-вправо, тогда в центре как раз будет чаще встречаться G)
3. Далее из промоторных последовательностей были вырезаны участки отличающиеся от AGGAGG не более чем на два нт (скрипт), это будет материал тестирования (для упрощения последующих вычислений, ограничил выборку сигналов до 100).
4. В качестве материала негативного контроля взял последовательности из 6 букв на тех же участках но со сдвигом на 40 нт влево в нетранслирующую область (тоже 100)
5. Построил PWM для выравнивания промоторных участков из пункта 2 (скрипт)
6-8. На основе PWM из пункта 5 вычислил веса для всех последовательностей из предыдущих пунктов. Результат отражен в гистограммах, таблице 2:
Исходя из гистограмм, выбрал порог равный 2.25, такой порог примерно позволяет минимизировать сумму ошибок первого и второго рода при последующем тестировании.
Обучение | "+"-контроль | "-"-контроль | |
Сигнал (+) | 218 | 234 | 83 |
Сигнал (-) | 73 | 102 | 245 |
Для подсчета информационного содержания для выравнивания из материала обучения использовал скрипт
nt | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
A | 0.76 | -0.08 | -0.08 | 0.97 | -0.07 | -0.04 |
G | -0.13 | 1.0 | 1.21 | -0.13 | 1.05 | 0.73 |
T | -0.13 | -0.13 | -0.09 | -0.12 | -0.13 | -0.12 |
C | -0.13 | -0.12 | -0.13 | -0.11 | -0.12 | -0.13 |
С помощью сервиса WebLOGO построил LOGO
Как и ожидалось, в лого последовательности Шайна-Далгарно видим AGGAGG
В полном геноме E.coli нашлось 646 сайтов рестрикции (скрипт), что значительно ниже ожидаемого числа сайтов (1097). Наблюдаемое явление можно объяснить тем, что GAATTC — сигнал. Он адресован системе рестрикции-модификации, является сайтом рестрикции EcoRI — эндонуклеазы рестрикции. Видимо, данные сайты находятся под давлением отбора, т.к. ошибка метилирования в них может привести к разрушению собственной ДНК.