Сигналы в геноме

Сигнал сквозного прочтения

Терминация трансляции не является эффективной на 100%, в некоторых случаях может происходить прочтение стоп-кодона (stop-codon readthrough). При этом стоп-кодон будет декодирован почти родственной тРНК, а синтез белка будет продолжен в той же рамке считывания до следующего стоп-кодона.

Последовательность стоп-кодона и следующие за ним нуклеотиды (в особенности нуклеотид, идущий сразу после стоп-кодона) влияют на эффективность сквозного прочтения [1].

Сквозное прочтение стоп-кодонов широко используется вирусами для расширения спектра экспрессии своих генов, иногда оно имеет место и в случае клеточных мРНК. В настоящее время существует 30 клеточных мРНК с экспериментально подтвержденным запрограммированным считыванием стоп-кодонов, многие из которых имеют мотив считывания UGACUAG [2].

Мотив UGACUAG — это сигнал рибосоме к сквозному прочтению, однако он является достаточно слабым (самый высокий показатель сквозного прочтения у человека — 17% — отмечается у гена OPRL1 [3]).

Список литературы

Kotchaphorn Mangkalaphiban et al., “Extended Stop Codon Context Predicts Nonsense Codon Readthrough Efficiency in Human Cells,” Nature Communications 15, no. 1 (March 20, 2024): 2486, https://doi.org/10.1038/s41467-024-46703-z.
Lekha E. Manjunath et al., “Mammalian Proteome Expansion by Stop Codon Readthrough,” WIREs RNA 14, no. 2 (2023): e1739, https://doi.org/10.1002/wrna.1739.
Gary Loughran et al., “Avoidance of Reporter Assay Distortions from Fused Dual Reporters,” RNA 23, no. 8 (2017): 1285–89, https://doi.org/10.1261/rna.061051.117.

Построение PWM для последовательностей Шайна-Дальгарно

По традиции для изучения возьмем бактерию из рода Thermus, а именно Thermus thermophilus HB8.
Ссылка на аннотированную геномную сборку

С помощью скрипта были найдены последовательности длиной 20 пн до старт-кодона, затем из них была отобрана обучающая выборка — последовательности длиной 6, которые имеют не больше 1 несовпадающей пары с последовательностью Шайна-Дальгарно (AGGAGG). В качестве негативной выборки использовались последовательности длиной 20 пн в районе +100 от старт-кодона.

Далее по обучающей выборке была построена матрица PWM c pseudocount = 0.1 для всех азотистых оснований.

**Таблица 1.** Матрица PWM последовательностей Шайна-Дальгарно бактерии *Thermus thermophilus* HB8
	баз. частоты	1	2	3	4	5	6
A	0.154	1.422	-2.395	-1.676	1.663	-1.621	-2.095
T	0.151	-0.164	-3.123	-2.569	-0.609	-1.953	-2.319
G	0.346	-0.648	1.030	1.017	-1.532	0.999	1.000
C	0.349	-1.789	-3.559	-4.642	-2.439	-3.740	-2.615

Для всех 6-меров в трех выборках (участки 20 нп до старт-кодона (теперь будем называть ее выборкой тестирования), обучающая выборка, негативная выборка) были посчитаны веса по нашей PWM матрице (рис 1-3). На основе весов был выбран порог 3.6 и посчитано количество 6-меров, которые, как мы считаем, являются данным сигналом.

**Рис. 1.** Гистограмма весов последовательностей обучающей выборки

**Рис. 2.** Гистограмма весов 6-меров последовательностей тестовой выборки

**Рис. 3.** Гистограмма весов 6-меров последовательностей негативной выборки

**Таблица 2.** Результаты поиска в разных выборках последовательности Шайна-Дальгарно
	Обучающая выборка	Тестовая выборка	Негативная выборка
Сигнал(+)	1102	1102	487
Сигнал(-)	116	25694	26309

Может показаться, что в тестовой выборке должно быть большее соотношение сигнал(+) к сигнал(-). Здесь нужно учитывать, что мы рассматриваем все 6-меры в участках до старт кодона, а последовательность Шайна-Дальгарно в теории должна быть всего одна на этот участок (а всего генов 1914).

Так как тестовая и негативная выборка одинакового размера, можем сказать, что в случайной последовательности (в данном случае внутри гена) в два раза реже встрачается 6-мер похожий на Шайна-Дальгарно, чем в последовательности перед геном.

Информационное содержание IC выравнивания равно 7.5, что является достаточно высоким показателем для последовательности из шести букв (максимальное IC в таком случае равнялось бы 12).

На сервесе WebLOGO 3 был построен LOGO этого сигнала.

Рис. 4. LOGO для последоватльности Шайна-Дальгарно бактерии Thermus thermophilus HB8