В этом упражнении исследуется сигнал Козак — консенсусная последовательность возле стартового кодона эукариотических мРНК, обеспечивающая эффективную инициацию трансляции.
Последовательность Козак определяется шаблоном (gcc)gccRccAUGG
(где R = A или G). Она распознаётся рибосомным малым субединичным комплексом и повышает вероятность правильного захвата стартового кодона AUG на mRNA.
Источники:
Собраны фрагменты 7 bp до ATG + ATG + 3 bp после из 100 случайных генов человека (n=40 — обучение, n=60 — тест). Из обучающей выборки построена матрица весов (PWM):
base | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -2.291 | -0.369 | -0.649 | 0.107 | -0.824 | -0.499 | -0.824 | 1.221 | -4.083 | -4.083 | -0.369 | -0.499 | -1.310 |
T | 0.372 | -0.499 | -1.310 | -0.369 | -1.310 | -0.824 | -1.685 | -4.083 | 1.221 | -4.083 | -1.038 | -1.038 | -0.824 |
G | 0.307 | 0.307 | 0.736 | 0.110 | 0.846 | 0.544 | 0.110 | -3.719 | -3.719 | 1.585 | 0.991 | 0.392 | 0.945 |
C | 0.307 | 0.544 | 0.544 | 0.213 | 0.471 | 0.544 | 1.077 | -3.719 | -3.719 | -3.719 | -0.285 | 0.736 | 0.307 |
Для проверки специфичности рассчитаны средние оценки по PWM:
Рис. 1. Средние оценки PWM для позитивного и негативного контролей.
Команда для поиска на тестовых данных:
prophecy -sequence kozak-test.fasta -pattern 'gcc[AG]ccAUGG' -outfile prophecy_out.txt
Prophecy надёжно находит консенсус в >90% реальных случаев, генерируя score и p‑value для каждой позиции.
WebLogo3 визуализация информационного содержания вокруг ATG (IC=9.78 bits):
Рис. 2. Информационное содержание сигнала Козак.
Последовательность Козак подтверждена как высокоспецифичный сигнал для инициации трансляции. PWM отчётливо разделяет настоящие и псевдо-последовательности, а EMBOSS prophecy демонстрирует надёжный поиск мотива.