Сигналы в геноме

Сигнал сквозного прочтения

Терминация трансляции не является эффективной на 100%, в некоторых случаях может происходить прочтение стоп-кодона (stop-codon readthrough). При этом стоп-кодон будет декодирован почти родственной тРНК, а синтез белка будет продолжен в той же рамке считывания до следующего стоп-кодона.

Последовательность стоп-кодона и следующие за ним нуклеотиды (в особенности нуклеотид, идущий сразу после стоп-кодона) влияют на эффективность сквозного прочтения [1].

Сквозное прочтение стоп-кодонов широко используется вирусами для расширения спектра экспрессии своих генов, иногда оно имеет место и в случае клеточных мРНК. В настоящее время существует 30 клеточных мРНК с экспериментально подтвержденным запрограммированным считыванием стоп-кодонов, многие из которых имеют мотив считывания UGACUAG [2].

Мотив UGACUAG — это сигнал рибосоме к сквозному прочтению, однако он является достаточно слабым (самый высокий показатель сквозного прочтения у человека — 17% — отмечается у гена OPRL1 [3]).

Список литературы

  1. Kotchaphorn Mangkalaphiban et al., “Extended Stop Codon Context Predicts Nonsense Codon Readthrough Efficiency in Human Cells,” Nature Communications 15, no. 1 (March 20, 2024): 2486, https://doi.org/10.1038/s41467-024-46703-z.
  2. Lekha E. Manjunath et al., “Mammalian Proteome Expansion by Stop Codon Readthrough,” WIREs RNA 14, no. 2 (2023): e1739, https://doi.org/10.1002/wrna.1739.
  3. Gary Loughran et al., “Avoidance of Reporter Assay Distortions from Fused Dual Reporters,” RNA 23, no. 8 (2017): 1285–89, https://doi.org/10.1261/rna.061051.117.

Построение PWM для последовательностей Шайна-Дальгарно

По традиции для изучения возьмем бактерию из рода Thermus, а именно Thermus thermophilus HB8.
Ссылка на аннотированную геномную сборку

С помощью скрипта были найдены последовательности длиной 20 пн до старт-кодона, затем из них была отобрана обучающая выборка — последовательности длиной 6, которые имеют не больше 1 несовпадающей пары с последовательностью Шайна-Дальгарно (AGGAGG). В качестве негативной выборки использовались последовательности длиной 20 пн в районе +100 от старт-кодона.

Далее по обучающей выборке была построена матрица PWM c pseudocount = 0.1 для всех азотистых оснований.

Таблица 1. Матрица PWM последовательностей Шайна-Дальгарно бактерии Thermus thermophilus HB8
баз. частоты 1 2 3 4 5 6
A 0.154 1.422 -2.395 -1.676 1.663 -1.621 -2.095
T 0.151 -0.164 -3.123 -2.569 -0.609 -1.953 -2.319
G 0.346 -0.648 1.030 1.017 -1.532 0.999 1.000
C 0.349 -1.789 -3.559 -4.642 -2.439 -3.740 -2.615

Для всех 6-меров в трех выборках (участки 20 нп до старт-кодона (теперь будем называть ее выборкой тестирования), обучающая выборка, негативная выборка) были посчитаны веса по нашей PWM матрице (рис 1-3). На основе весов был выбран порог 3.6 и посчитано количество 6-меров, которые, как мы считаем, являются данным сигналом.

-
Рис. 1. Гистограмма весов последовательностей обучающей выборки
-
Рис. 2. Гистограмма весов 6-меров последовательностей тестовой выборки
-
Рис. 3. Гистограмма весов 6-меров последовательностей негативной выборки
Таблица 2. Результаты поиска в разных выборках последовательности Шайна-Дальгарно
Обучающая выборка Тестовая выборка Негативная выборка
Сигнал(+) 1102 1102 487
Сигнал(-) 116 25694 26309

Может показаться, что в тестовой выборке должно быть большее соотношение сигнал(+) к сигнал(-). Здесь нужно учитывать, что мы рассматриваем все 6-меры в участках до старт кодона, а последовательность Шайна-Дальгарно в теории должна быть всего одна на этот участок (а всего генов 1914).

Так как тестовая и негативная выборка одинакового размера, можем сказать, что в случайной последовательности (в данном случае внутри гена) в два раза реже встрачается 6-мер похожий на Шайна-Дальгарно, чем в последовательности перед геном.

Информационное содержание IC выравнивания равно 7.5, что является достаточно высоким показателем для последовательности из шести букв (максимальное IC в таком случае равнялось бы 12).

На сервесе WebLOGO 3 был построен LOGO этого сигнала.

LOGO
Рис. 4. LOGO для последоватльности Шайна-Дальгарно бактерии Thermus thermophilus HB8