Классические сигналы ядерной локализации подразделяются на 2 класса: двучастные и одночастные. Двучастные (bipartite) отличаются от последних тем, что у них два кластера положительно заряженных аминокислот разделены коротким спейсерным участком. Классические сигналы ядерной локализации распознаются импортином (Impβ) посредством прямого связывания с адапторным белком (Impα). Чтобы доставить белок в ядро, импортин посредством гидрофобных карманов на своей поверхности должен образовать связь с комплексом ядерных пор.
Источники:
1. Soniat, M., & Chook, Y. M. (2015). Nuclear localization signals for four distinct karyopherin-β nuclear import systems. Biochemical Journal, 468(3), 353–362. doi:10.1042/bj20150368
2. Lange, A., Mills, R. E., Lange, C. J., Stewart, M., Devine, S. E., & Corbett, A. H. (2006). Classical Nuclear Localization Signals: Definition, Function, and Interaction with Importin α. Journal of Biological Chemistry, 282(8), 5101–5105. doi:10.1074/jbc.r600026200
Для исследования последовательности Козак использовался скрипт Вяльцева В.В., которому автор выражает признательность. Скрипт можно найти по ссылке. С помощью скрипта были выбраны 100 случайных генов человека, из которых вырезался фрагмент 7 bp до + стартовый ATG + 3 bp после. Из полученных 100 последовательностей 40 были отобраны для построения матрицы и 60 для ее оценки. Для построения матрицы для человка был взят GC-состав равный 40.2. Скрипт приниает на вход файл human-genes.tsv с описанием генов и создает следующие файлы:
signals.fasta - выборка искомых последовательностей (7 + ATG + 3) для генов из human-genes.tsv
train.fasta - последовательности для построения матриц
random-atg.fasta- выборка последовательностей (7 + ATG + 3) для случайных ATG из генома человека, не принадлежащих началу генов
PWM.csv - веса матрицы PWM
IC.csv - веса матрицы IC
stats.csv - содержит средний вес, расчитанный по матрице PWM, для положительной и отрицателной выборок, а также p-value для гипотезы о равенстве средних значений весов контролей
Нуклеотид | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0,2832 | 0,0017 | -0,3997 | -0,3997 | 0,4582 | 0,0811 | -1,3601 | 1,1999 | -4,7941 | -4,7941 | -0,2832 | -0,3997 | -1,3601 |
T | -0,8623 | -1,3601 | -0,3997 | -0,3997 | -2,3962 | -0,6832 | -1,7496 | -4,7941 | 1,1999 | -4,7941 | -0,3997 | -1,0805 | -0,2832 |
G | 0,6844 | 0,7447 | 0,3126 | 0,3988 | 0,6203 | 0,1139 | 0,3126 | -4,3970 | -4,3970 | 1,5970 | 0,9063 | 0,3988 | 0,6844 |
C | 0,2182 | -0,0025 | 0,4782 | 0,3988 | -0,4651 | 0,3988 | 1,0878 | -4,3970 | -4,3970 | -4,3970 | -0,9630 | 0,6844 | 0,3988 |
Средние значения весов для положительного и отрицательного контролей составили 5.17 и 1.85 соответсвенно. Значение p-value составило 6.1e-09, благодаря чему можно делать вывод о значимости различий между средними.
Нуклеотид | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0,0923 | 0,0014 | -0,1160 | -0,1160 | 0,3172 | 0,0391 | -0,1496 | 1,7418 | 0,0000 | 0,0000 | -0,0923 | -0,1160 | -0,1496 |
T | -0,1573 | -0,1496 | -0,1160 | -0,1160 | -0,0895 | -0,1493 | -0,1290 | 0,0000 | 1,7418 | 0,0000 | -0,1160 | -0,1580 | -0,0923 |
G | 0,3971 | 0,4591 | 0,1244 | 0,1733 | 0,3374 | 0,0366 | 0,1244 | 0,0000 | 0,0000 | 2,3147 | 0,6574 | 0,1733 | 0,3971 |
C | 0,0787 | -0,0014 | 0,2253 | 0,1733 | -0,0857 | 0,1733 | 0,9467 | 0,0000 | 0,0000 | 0,0000 | -0,1067 | 0,3971 | 0,1733 |
Информационное содержание сигнала согласно построенной матрице IC сотставляет 8.9 из максимального 26.0. По значениям IC на LOGO (Рис.2) можно видеть, что сигнал сильнее всего в близи от ATG.