Сигнал ядерной локализации (nuclear localization signal, NLS) обычно представляет собой короткий пептид, который действуют как сигнальный фрагмент. Целью сигнала является обеспечение транспорта белков, которые должны функционировать в ядре, такие как факторы транскрипции или белки репарации. Эффективность сигнала NLS может различаться в зависимости от конкретной последовательности и белка, к которому он прикреплен. В целом, сигнал NLS довольно эффективен, так как большинство белков, содержащих функциональный NLS, переносятся в ядро. Некоторые белки могут иметь дополнительные сигналы, которые влияют на их локализацию, или могут иметь мутации в NLS, которые влияют на их способность переноситься в ядро.
1. Была выбрана последовательность Шайна-Дальгарно перед стартом трансляции генов в геноме E.coli штамма K-12 подштамм MG1655.
Последовательности длиной 20 нуклеотидов перед генами (всего 4298 штук) были получены из генома и хромосомной таблицы (RefSeq ID GCF_000005845.2) с помощью скрипта, разработанного и предоставленного Андреем Малышевым (за что я ему благодарен). Эти последовательности будут использоваться в качестве материала для обучения. Обычно последовательность Шайна-Дальгарно располагается примерно в 10 нуклеотидах до старт-кодона (Kapp et al., 2004), характерной является последовательность AGGAGG. Для выравнивания без гэпов программа Jalview показывает консенсус, представленный на Рис.1.
Консенсусная последовательность представляет собой набор самых часто встречающихся нуклеотидов на каждой позиции, поэтому это нормально, что она может отличаться от характерной последовательности Шайна-Дальгарно (AGGAGG). Как я понимаю, поскольку у последовательности AGGAGG нет четкой позиции, AGGGGA может быть ее усредненным представлением. Если представить, что последовательность AGGAGG смещается на 1-2 нуклеотида влево или вправо, тогда в центре будет чаще встречаться нуклеотид G.
3. Далее из промоторных последовательностей были вырезаны участки отличающиеся от AGGAGG не более чем на два нуклеотида (ссылка скрипт), это будет материал тестирования (для упрощения последующих вычислений, выборка сигналов была ограничена до 100).
4. В качестве материала для негативного контроля были выбраны последовательности длиной 6 нуклеотидов из тех же участков, но со сдвигом на 40 нуклеотидов влево в нетранслируемую область (тоже всего 100 последовательностей).
5. Построение PWM для выравнивания промоторных участков из пункта 2 (ссылка скрипт)
6-8. На основе PWM из пункта 5 были вычислены веса для всех последовательностей из предыдущих пунктов. Результат отражен на Рис.2.
Исходя из гистограмм, выбрал порог равный 2.25, примерно такой порог позволяет минимизировать сумму ошибок первого и второго рода при последующем тестировании.
Обучение | "+" контроль | "-" контроль | |
---|---|---|---|
Сигнал (+) | 218 | 234 | 83 |
Сигнал (-) | 73 | 102 | 245 |
nt | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
A | 0.76 | -0.08 | -0.08 | 0.97 | -0.07 | -0.04 |
G | -0.13 | 1.0 | 1.21 | -0.13 | 1.05 | 0.73 |
T | -0.13 | -0.13 | -0.09 | -0.12 | -0.13 | -0.12 |
C | -0.13 | -0.12 | -0.13 | -0.11 | -0.12 | -0.13 |
С помощью сервиса WebLOGO было построено LOGO (Рис.4)
Как и ожидалось, в LOGO последовательности Шайна-Дальгарно видим AGGAGG!