Терминация трансляции не является эффективной на 100%, в некоторых случаях может происходить прочтение стоп-кодона (stop-codon readthrough). При этом стоп-кодон будет декодирован почти родственной тРНК, а синтез белка будет продолжен в той же рамке считывания до следующего стоп-кодона.
Последовательность стоп-кодона и следующие за ним нуклеотиды (в особенности нуклеотид, идущий сразу после стоп-кодона) влияют на эффективность сквозного прочтения [1].
Сквозное прочтение стоп-кодонов широко используется вирусами для расширения спектра экспрессии своих генов, иногда оно имеет место и в случае клеточных мРНК. В настоящее время существует 30 клеточных мРНК с экспериментально подтвержденным запрограммированным считыванием стоп-кодонов, многие из которых имеют мотив считывания UGACUAG [2].
Мотив UGACUAG — это сигнал рибосоме к сквозному прочтению, однако он является достаточно слабым (самый высокий показатель сквозного прочтения у человека — 17% — отмечается у гена OPRL1 [3]).
Список литературы
По традиции для изучения возьмем бактерию из рода Thermus, а именно Thermus thermophilus HB8.
Ссылка на аннотированную геномную сборку
С помощью скрипта были найдены последовательности длиной 20 пн до старт-кодона, затем из них была отобрана обучающая выборка — последовательности длиной 6, которые имеют не больше 1 несовпадающей пары с последовательностью Шайна-Дальгарно (AGGAGG). В качестве негативной выборки использовались последовательности длиной 20 пн в районе +100 от старт-кодона.
Далее по обучающей выборке была построена матрица PWM c pseudocount = 0.1 для всех азотистых оснований.
баз. частоты | 1 | 2 | 3 | 4 | 5 | 6 | |
---|---|---|---|---|---|---|---|
A | 0.154 | 1.422 | -2.395 | -1.676 | 1.663 | -1.621 | -2.095 |
T | 0.151 | -0.164 | -3.123 | -2.569 | -0.609 | -1.953 | -2.319 |
G | 0.346 | -0.648 | 1.030 | 1.017 | -1.532 | 0.999 | 1.000 |
C | 0.349 | -1.789 | -3.559 | -4.642 | -2.439 | -3.740 | -2.615 |
Для всех 6-меров в трех выборках (участки 20 нп до старт-кодона (теперь будем называть ее выборкой тестирования), обучающая выборка, негативная выборка) были посчитаны веса по нашей PWM матрице (рис 1-3). На основе весов был выбран порог 3.6 и посчитано количество 6-меров, которые, как мы считаем, являются данным сигналом.
Обучающая выборка | Тестовая выборка | Негативная выборка | |
---|---|---|---|
Сигнал(+) | 1102 | 1102 | 487 |
Сигнал(-) | 116 | 25694 | 26309 |
Может показаться, что в тестовой выборке должно быть большее соотношение сигнал(+) к сигнал(-). Здесь нужно учитывать, что мы рассматриваем все 6-меры в участках до старт кодона, а последовательность Шайна-Дальгарно в теории должна быть всего одна на этот участок (а всего генов 1914).
Так как тестовая и негативная выборка одинакового размера, можем сказать, что в случайной последовательности (в данном случае внутри гена) в два раза реже встрачается 6-мер похожий на Шайна-Дальгарно, чем в последовательности перед геном.
Информационное содержание IC выравнивания равно 7.5, что является достаточно высоким показателем для последовательности из шести букв (максимальное IC в таком случае равнялось бы 12).
На сервесе WebLOGO 3 был построен LOGO этого сигнала.