Сигналы в геноме. Примеры и поиск сигналов с известными последовательностями

1. Сигнал ядерной локализации

Сигнал ядерной локализации (nuclear localization signal, NLS) обычно представляет собой короткий пептид, который действуют как сигнальный фрагмент. Целью сигнала является обеспечение транспорта белков, которые должны функционировать в ядре, такие как факторы транскрипции или белки репарации. Эффективность сигнала NLS может различаться в зависимости от конкретной последовательности и белка, к которому он прикреплен. В целом, сигнал NLS довольно эффективен, так как большинство белков, содержащих функциональный NLS, переносятся в ядро. Некоторые белки могут иметь дополнительные сигналы, которые влияют на их локализацию, или могут иметь мутации в NLS, которые влияют на их способность переноситься в ядро.

Источники:
"Types of nuclear localization signals and mechanisms of protein import into the nucleus", Juane Lu, 2021

2. PWM для последовательности Шайна-Дальгарно E.coli

1. Была выбрана последовательность Шайна-Дальгарно перед стартом трансляции генов в геноме E.coli штамма K-12 подштамм MG1655.

Последовательности длиной 20 нуклеотидов перед генами (всего 4298 штук) были получены из генома и хромосомной таблицы (RefSeq ID GCF_000005845.2) с помощью скрипта, разработанного и предоставленного Андреем Малышевым (за что я ему благодарен). Эти последовательности будут использоваться в качестве материала для обучения. Обычно последовательность Шайна-Дальгарно располагается примерно в 10 нуклеотидах до старт-кодона (Kapp et al., 2004), характерной является последовательность AGGAGG. Для выравнивания без гэпов программа Jalview показывает консенсус, представленный на Рис.1.

Рис.1 Консенсус последовательности из 20 нуклеотидов перед старт кодоном, полученный выравниванием

Консенсусная последовательность представляет собой набор самых часто встречающихся нуклеотидов на каждой позиции, поэтому это нормально, что она может отличаться от характерной последовательности Шайна-Дальгарно (AGGAGG). Как я понимаю, поскольку у последовательности AGGAGG нет четкой позиции, AGGGGA может быть ее усредненным представлением. Если представить, что последовательность AGGAGG смещается на 1-2 нуклеотида влево или вправо, тогда в центре будет чаще встречаться нуклеотид G.

3. Далее из промоторных последовательностей были вырезаны участки отличающиеся от AGGAGG не более чем на два нуклеотида (ссылка скрипт), это будет материал тестирования (для упрощения последующих вычислений, выборка сигналов была ограничена до 100).

4. В качестве материала для негативного контроля были выбраны последовательности длиной 6 нуклеотидов из тех же участков, но со сдвигом на 40 нуклеотидов влево в нетранслируемую область (тоже всего 100 последовательностей).

5. Построение PWM для выравнивания промоторных участков из пункта 2 (ссылка скрипт)

Рис.2 PWM на материале обучения

6-8. На основе PWM из пункта 5 были вычислены веса для всех последовательностей из предыдущих пунктов. Результат отражен на Рис.2.

Рис.3 Гистограммы распределения весов последовательностей

Исходя из гистограмм, выбрал порог равный 2.25, примерно такой порог позволяет минимизировать сумму ошибок первого и второго рода при последующем тестировании.

Таблица 1. Матрица результатов проверки (наличие сигнала в последовательности).
Обучение "+" контроль "-" контроль
Сигнал (+) 218 234 83
Сигнал (-) 73 102 245

3. Построение информационной матрицы и LOGO

Для подсчета информационного содержания для выравнивания из материала обучения использовался скрипт.
Таблица 2. Матрица информационного содержания сигналов.
nt 1 2 3 4 5 6
A 0.76 -0.08 -0.08 0.97 -0.07 -0.04
G -0.13 1.0 1.21 -0.13 1.05 0.73
T -0.13 -0.13 -0.09 -0.12 -0.13 -0.12
C -0.13 -0.12 -0.13 -0.11 -0.12 -0.13

С помощью сервиса WebLOGO было построено LOGO (Рис.4)

Рис.4 Logo, построенное на основе сигналов.

Как и ожидалось, в LOGO последовательности Шайна-Дальгарно видим AGGAGG!