Описание найденного сигнала

Для описания я выбрал сигнал: CTCF-связывающая последовательность CCGCGNGGNGGCAG. Этот сигнал адресован ДНК-связывающему белку CTCF. После связывания с сигналом, CTCF димеризуется, формируя петли хроматина. Сигнал имеет важное значение в регуляции организации хроматина и экспрессии генов. Изолируя петли, сигнал может играть роль инсулятора, ограничивая дальнодействие энхансеров и сайленсеров.

Поиск сигнала Шайна-Дальгарно в геноме

Описание сигнала

Сигнал Шайна-Дальгарно - это консервативная последовательность длиной 6 нуклеотидов, располагающаяся на расстоянии 10 нт от старт-кодона большинства бактериальных мРНК. Искать эту последовательность я буду в геноме Thermus aquaticus - экстремофильной бактерии, из которой была впервые получена Taq-полимераза, важный фермент в молекулярной биологии. Для большинства дальнейших операций я использовал немного модифицированный скрипт Карины Каримовой.

Создание матрицы PWM

При помощи скрипта были получены последовательности от -20 до старт кодона. Из них были вырезаны подпоследовательности длиной 6 нт, имеющие не более одного несовпадения с последовательностью ШД (AGGAGG). На основании этих последовательностей была построена матрица PWM с pseudocount 0.1.

Табл.1 Матрица PWM
1 2 3 4 5 6 Base frequences
A 1.436 -1.657 -2.084 1.616 -1.443 -2.084 0.160
T -0.134 -2.259 -2.836 -0.653 -2.909 -2.586 0.159
G -0.920 1.020 1.050 -1.468 1.026 1.024 0.339
C -1.852 -3.298 -5.116 -2.314 -3.841 -2.662 0.342
Поиск последовательностей по матрице PWM

Следующим этапом была оценка весов подпоследовательностей длиной 6 нт в обучающей выборке, тестовой выборке (-20 нт - старт) и в негативном контроле (+100 нт - +120 нт).

Рис.1 Гистограмма весов в обучающей выборке
Рис.2 Гистограмма весов в тестовой выборке
Рис.3 Гистограмма весов в негативном контроле
Табл.2 количество подходящих последовательностей при пороговом весе 2.8
Обучающая Тестовая Негативный контроль
+ 1497 1595 799
- 14 32005 32816
Табл.3 количество подходящих последовательностей при пороговом весе 3.6
Обучающая Тестовая Негативный контроль
+ 1346 1346 543
- 165 32254 33072

На первый взгляд, в тестовой выбоке не такая уж большая доля последователностей содержит Шайна-Дальгарно. Однако, скорее всего, это связано с тем, что тестовая выборка состоит из всех возможных подпоследовательностей длиной 6 нт, а ШД в них, по идее, максимум одна. Также роль может играть то, что исследуемая бактерия грамотрицательна, а для них обнаружен ШД-независимый способ инициации трансляции - с помощью рибосомального белка 1S. Помимо этого, достаточно много ложноположительных результатов, что может быть связано с небольшой длиной сигнала - 6 нт. IC сигнала 7.56, что довольно много для 6-мера (максимум для такой последовательности 12).

LOGO

С помощью веб-сервиса WebLOGO 3 был построен график LOGO, из которого понятно, что самыми консервативными являются G на позициях 2,3,5,6.

Рис.4 LOGO последовательности Шайна-Дальгарно.