1. Сигнал ядерной локализации

Сигнал ядерной локализации (nuclear localization signal, NLS) — специфическая аминокислотная последовательность являющаяся местом узнавания белка транспортными факторами, которые переносят его в ядро (кариоферины).

Целью сигнала является обеспечение транспорта белков, которые должны функционировать в ядре, такие как факторы транскрипции или ферменты репарации ДНК. Эффективность сигнала NLS может варьироваться в зависимости от конкретной последовательности и белка, к которому он присоединен. В целом, сигнал NLS достаточно эффективен, поскольку большинство белков, содержащих функциональный NLS, транспортируются в ядро. Некоторые белки могут иметь дополнительные сигналы, влияющие на их локализацию, или у них могут быть мутации в NLS, влияющие на их способность транспортироваться в ядро.

2. PWM для последовательности Шайна-Далгарно E.coli

1. Выбрал последовательность Шайна-Далгарно перед стартом трансляции генов в геноме E.coli штамма K-12 подштамм MG1655.

2. По геному и хромосомной таблице (RefSeq ID GCF_000005845.2) с помощью скрипта (автор Андрей Малышев) были получены последовательности перед генами длиной 20 нт (4298 штук). Это материал обучения. Последовательность Шайна-Далгарно обычно располагается на расстоянии около 10 нуклеотидов до старт кодона (Kapp et al., 2004), характерной является последовательность AGGAGG. Для выравнивания без гэпов программа Jalview показывает следующий консенсус

alignment.jpg
Pic.1 Консенсус последовательности из 20 нт перед старт кодоном, полученный выравниванием

Важно понимать, что консенсус представляет собой последовательность из самых частовстречающихся букв на каждой позиции, поэтому это нормально, что он отличается от самой последовательности Шайна-Далгарно (AGGAGG). Насколько я понимаю, т.к. у AGGAGG нет четкой позиции, то АGGGGA это как раз её усредненная картина (представьте, что AGGAGG двигается на 1-2 нуклеотида влево-вправо, тогда в центре как раз будет чаще встречаться G)

3. Далее из промоторных последовательностей были вырезаны участки отличающиеся от AGGAGG не более чем на два нт (скрипт), это будет материал тестирования (для упрощения последующих вычислений, ограничил выборку сигналов до 100).

4. В качестве материала негативного контроля взял последовательности из 6 букв на тех же участках но со сдвигом на 40 нт влево в нетранслирующую область (тоже 100)

5. Построил PWM для выравнивания промоторных участков из пункта 2 (скрипт)

alignment.jpg
Table 1. PWM на материале обучения

6-8. На основе PWM из пункта 5 вычислил веса для всех последовательностей из предыдущих пунктов. Результат отражен в гистограммах, таблице 2:

alignment.jpg
Pic.2 Гистограммы распределения весов последовательностей

Исходя из гистограмм, выбрал порог равный 2.25, такой порог примерно позволяет минимизировать сумму ошибок первого и второго рода при последующем тестировании.

Обучение "+"-контроль "-"-контроль
Сигнал (+) 218 234 83
Сигнал (-) 73 102 245
Table 2. Матрица результатов проверки (наличие сигнала в последовательности).

3. Информационное содержание (IC) и LOGO

Для подсчета информационного содержания для выравнивания из материала обучения использовал скрипт

nt 1 2 3 4 5 6
A 0.76 -0.08 -0.08 0.97 -0.07 -0.04
G -0.13 1.0 1.21 -0.13 1.05 0.73
T -0.13 -0.13 -0.09 -0.12 -0.13 -0.12
C -0.13 -0.12 -0.13 -0.11 -0.12 -0.13
Table 3. Матрица информационного содержания сигналов.

С помощью сервиса WebLOGO построил LOGO

alignment.jpg
Pic.3 Logo, построенное на основе сигналов.

Как и ожидалось, в лого последовательности Шайна-Далгарно видим AGGAGG

4. Подсчет числа сайтов GAATTC в полном геноме E.coli штамма К-12

В полном геноме E.coli нашлось 646 сайтов рестрикции (скрипт), что значительно ниже ожидаемого числа сайтов (1097). Наблюдаемое явление можно объяснить тем, что GAATTC — сигнал. Он адресован системе рестрикции-модификации, является сайтом рестрикции EcoRI — эндонуклеазы рестрикции. Видимо, данные сайты находятся под давлением отбора, т.к. ошибка метилирования в них может привести к разрушению собственной ДНК.