Сигналы и мотивы

Задание 1. Сигнал митохондриальной локализации

Классические сигналы ядерной локализации подразделяются на 2 класса: двучастные и одночастные. Двучастные (bipartite) отличаются от последних тем, что у них два кластера положительно заряженных аминокислот разделены коротким спейсерным участком. Классические сигналы ядерной локализации распознаются импортином (Impβ) посредством прямого связывания с адапторным белком (Impα). Чтобы доставить белок в ядро, импортин посредством гидрофобных карманов на своей поверхности должен образовать связь с комплексом ядерных пор.

Источники:

1. Soniat, M., & Chook, Y. M. (2015). Nuclear localization signals for four distinct karyopherin-β nuclear import systems. Biochemical Journal, 468(3), 353–362. doi:10.1042/bj20150368

2. Lange, A., Mills, R. E., Lange, C. J., Stewart, M., Devine, S. E., & Corbett, A. H. (2006). Classical Nuclear Localization Signals: Definition, Function, and Interaction with Importin α. Journal of Biological Chemistry, 282(8), 5101–5105. doi:10.1074/jbc.r600026200

Задание 2. Позиционная весовая матрица для последовательности Козак человека

Для исследования последовательности Козак использовался скрипт Вяльцева В.В., которому автор выражает признательность. Скрипт можно найти по ссылке. С помощью скрипта были выбраны 100 случайных генов человека, из которых вырезался фрагмент 7 bp до + стартовый ATG + 3 bp после. Из полученных 100 последовательностей 40 были отобраны для построения матрицы и 60 для ее оценки. Для построения матрицы для человка был взят GC-состав равный 40.2. Скрипт приниает на вход файл human-genes.tsv с описанием генов и создает следующие файлы:

signals.fasta - выборка искомых последовательностей (7 + ATG + 3) для генов из human-genes.tsv

train.fasta - последовательности для построения матриц

random-atg.fasta- выборка последовательностей (7 + ATG + 3) для случайных ATG из генома человека, не принадлежащих началу генов

PWM.csv - веса матрицы PWM

IC.csv - веса матрицы IC

stats.csv - содержит средний вес, расчитанный по матрице PWM, для положительной и отрицателной выборок, а также p-value для гипотезы о равенстве средних значений весов контролей

Нуклеотид 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0,2832 0,0017 -0,3997 -0,3997 0,4582 0,0811 -1,3601 1,1999 -4,7941 -4,7941 -0,2832 -0,3997 -1,3601
T -0,8623 -1,3601 -0,3997 -0,3997 -2,3962 -0,6832 -1,7496 -4,7941 1,1999 -4,7941 -0,3997 -1,0805 -0,2832
G 0,6844 0,7447 0,3126 0,3988 0,6203 0,1139 0,3126 -4,3970 -4,3970 1,5970 0,9063 0,3988 0,6844
C 0,2182 -0,0025 0,4782 0,3988 -0,4651 0,3988 1,0878 -4,3970 -4,3970 -4,3970 -0,9630 0,6844 0,3988

Средние значения весов для положительного и отрицательного контролей составили 5.17 и 1.85 соответсвенно. Значение p-value составило 6.1e-09, благодаря чему можно делать вывод о значимости различий между средними.

Задание 3. IC и LOGO

Нуклеотид 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0,0923 0,0014 -0,1160 -0,1160 0,3172 0,0391 -0,1496 1,7418 0,0000 0,0000 -0,0923 -0,1160 -0,1496
T -0,1573 -0,1496 -0,1160 -0,1160 -0,0895 -0,1493 -0,1290 0,0000 1,7418 0,0000 -0,1160 -0,1580 -0,0923
G 0,3971 0,4591 0,1244 0,1733 0,3374 0,0366 0,1244 0,0000 0,0000 2,3147 0,6574 0,1733 0,3971
C 0,0787 -0,0014 0,2253 0,1733 -0,0857 0,1733 0,9467 0,0000 0,0000 0,0000 -0,1067 0,3971 0,1733

Информационное содержание сигнала согласно построенной матрице IC сотставляет 8.9 из максимального 26.0. По значениям IC на LOGO (Рис.2) можно видеть, что сигнал сильнее всего в близи от ATG.