Сигнал ядерной локализации (NSL) — это место узнавания белка транспортными факторами — кариоферинами, которые осуществляют его перенос в ядро. NLS могут располагаться почти на любом участке белка, и, вероятно, они образуют особые структуры на поверхности клетки. Предполагают, что каждый из кариоферинов распознаёт NLS определённого класса. Подробнее всего изучены классический сигнал ядерной локализации (один или два кластера со следующим консенсусом: K-K/R-X-K/R или K/R-K/R-X 10—12(K/R) 3/5) и PY-NLS (С-концевой мотив R/K/H-X2—5-P-Y + N-концевой мотив из гидрофобных или положительно заряженных аминокислот). Сигнал высокоэффективный, поскольку контролирует локализацию белков, вне которой он не может нормально функционировать.
Сорокин А. В., Ким Е. Р., Овчинников Л. П. Ядерно-цитоплазматический транспорт белков // Успехи биологической химии. — 2007. — Т. 47. — С. 89—128. Альбертс и др., 2013, с. 1085—1086. Soniat M., Chook Y. M. Nuclear localization signals for four distinct karyopherin-β nuclear import systems. (англ.) // The Biochemical journal. — 2015. — Vol. 468, no. 3. — P. 353—362. — doi:10.1042/BJ20150368. Lee B. J., Cansizoglu A. E., Süel K. E., Louis T. H., Zhang Z., Chook Y. M. Rules for nuclear localization sequence recognition by karyopherin beta 2. (англ.) // Cell. — 2006. — Vol. 126, no. 3. — P. 543—558. — doi:10.1016/j.cell.2006.05.049.\
Для выбора случайных генов из генома человека, построения матрицы PWM и IC использовала скрипт Максима Смирнова. Из всех генов вырезался участок 7 bp до + стартовый ATG + 3 bp после. Cформировала обучающую и тестовую выборку.
По выравненным участкам тестовой выборки построила PWM (ε = 0,8, GC-content = 41%). Формула для ячейки PWM: ln(([N(b,j]+0.1]/(N+0.4))/p(b))
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -2.291 | -0.369 | -0.649 | 0.107 | -0.824 | -0.499 | -0.824 | 1.221 | -4.083 | -4.083 | -0.369 | -0.499 | -1.31 |
T | 0.372 | -0.499 | -1.31 | -0.369 | -1.31 | -0.824 | -1.685 | -4.083 | 1.221 | -4.083 | -1.038 | -1.038 | -0.824 |
G | 0.307 | 0.307 | 0.736 | 0.11 | 0.846 | 0.544 | 0.11 | -3.719 | -3.719 | 1.585 | 0.991 | 0.392 | 0.945 |
C | 0.307 | 0.544 | 0.544 | 0.213 | 0.471 | 0.544 | 1.077 | -3.719 | -3.719 | -3.719 | -0.285 | 0.736 | 0.307 |
Среднее значение веса для положительного контроля равняется 5.24, а для отрицательного - 1.79, при этом они достоверно отличаются (p-value = 2.5275925803673806e-09)
Матрица IC приведена ниже. Расчет осуществлялся по формуле N(b,j)/(ln(N(b,j)/p(b)))
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -0.089 | -0.112 | -0.146 | 0.045 | -0.155 | -0.132 | -0.155 | 1.761 | 0 | 0 | -0.112 | -0.132 | -0.148 |
T | 0.224 | -0.132 | -0.148 | -0.112 | -0.148 | -0.155 | -0.128 | 0 | 1.761 | 0 | -0.156 | -0.156 | -0.155 |
G | 0.117 | 0.117 | 0.447 | 0.03 | 0.576 | 0.27 | 0.03 | 0 | 0 | 2.286 | 0.783 | 0.165 | 0.712 |
C | 0.117 | 0.27 | 0.27 | 0.072 | 0.216 | 0.27 | 0.93 | 0 | 0 | 0 | -0.068 | 0.447 | 0.117 |
Далее по выравниваниям строила Logo.
На картинке различим сигнал вокруг старт-кодона, однако по сравнению со старт-кодоном он довольно слабый.