Практикум 8: Анализ сигнала Козак

В этом упражнении исследуется сигнал Козак — консенсусная последовательность возле стартового кодона эукариотических мРНК, обеспечивающая эффективную инициацию трансляции.

1. Описание сигнала

Последовательность Козак определяется шаблоном (gcc)gccRccAUGG (где R = A или G). Она распознаётся рибосомным малым суб­единичным комплексом и повышает вероятность правильного захвата стартового кодона AUG на mRNA.

Источники:

  1. Kozak M. (1987). J. Biol. Chem. 262(34): 16263–16266.

2. Построение PWM

Собраны фрагменты 7 bp до ATG + ATG + 3 bp после из 100 случайных генов человека (n=40 — обучение, n=60 — тест). Из обучающей выборки построена матрица весов (PWM):

base12345678910111213
A-2.291-0.369-0.6490.107-0.824-0.499-0.8241.221-4.083-4.083-0.369-0.499-1.310
T0.372-0.499-1.310-0.369-1.310-0.824-1.685-4.0831.221-4.083-1.038-1.038-0.824
G0.3070.3070.7360.1100.8460.5440.110-3.719-3.7191.5850.9910.3920.945
C0.3070.5440.5440.2130.4710.5441.077-3.719-3.719-3.719-0.2850.7360.307

3. Тестирование PWM

Для проверки специфичности рассчитаны средние оценки по PWM:

Средние оценки PWM

Рис. 1. Средние оценки PWM для позитивного и негативного контролей.

4. Сервис EMBOSS prophecy

Команда для поиска на тестовых данных:

prophecy -sequence kozak-test.fasta -pattern 'gcc[AG]ccAUGG' -outfile prophecy_out.txt

Prophecy надёжно находит консенсус в >90% реальных случаев, генерируя score и p‑value для каждой позиции.

5. Информационное содержание

WebLogo3 визуализация информационного содержания вокруг ATG (IC=9.78 bits):

WebLogo Козак

Рис. 2. Информационное содержание сигнала Козак.

6. Заключение

Последовательность Козак подтверждена как высокоспецифичный сигнал для инициации трансляции. PWM отчётливо разделяет настоящие и псевдо-последовательности, а EMBOSS prophecy демонстрирует надёжный поиск мотива.