Для описания я выбрал сигнал: CTCF-связывающая последовательность CCGCGNGGNGGCAG. Этот сигнал адресован ДНК-связывающему белку CTCF. После связывания с сигналом, CTCF димеризуется, формируя петли хроматина. Сигнал имеет важное значение в регуляции организации хроматина и экспрессии генов. Изолируя петли, сигнал может играть роль инсулятора, ограничивая дальнодействие энхансеров и сайленсеров.
Сигнал Шайна-Дальгарно - это консервативная последовательность длиной 6 нуклеотидов, располагающаяся на расстоянии 10 нт от старт-кодона большинства бактериальных мРНК. Искать эту последовательность я буду в геноме Thermus aquaticus - экстремофильной бактерии, из которой была впервые получена Taq-полимераза, важный фермент в молекулярной биологии. Для большинства дальнейших операций я использовал немного модифицированный скрипт Карины Каримовой.
При помощи скрипта были получены последовательности от -20 до старт кодона. Из них были вырезаны подпоследовательности длиной 6 нт, имеющие не более одного несовпадения с последовательностью ШД (AGGAGG). На основании этих последовательностей была построена матрица PWM с pseudocount 0.1.
1 | 2 | 3 | 4 | 5 | 6 | Base frequences | |
---|---|---|---|---|---|---|---|
A | 1.436 | -1.657 | -2.084 | 1.616 | -1.443 | -2.084 | 0.160 |
T | -0.134 | -2.259 | -2.836 | -0.653 | -2.909 | -2.586 | 0.159 |
G | -0.920 | 1.020 | 1.050 | -1.468 | 1.026 | 1.024 | 0.339 |
C | -1.852 | -3.298 | -5.116 | -2.314 | -3.841 | -2.662 | 0.342 |
Следующим этапом была оценка весов подпоследовательностей длиной 6 нт в обучающей выборке, тестовой выборке (-20 нт - старт) и в негативном контроле (+100 нт - +120 нт).
Обучающая | Тестовая | Негативный контроль | |
---|---|---|---|
+ | 1497 | 1595 | 799 |
- | 14 | 32005 | 32816 |
Обучающая | Тестовая | Негативный контроль | |
---|---|---|---|
+ | 1346 | 1346 | 543 |
- | 165 | 32254 | 33072 |
На первый взгляд, в тестовой выбоке не такая уж большая доля последователностей содержит Шайна-Дальгарно. Однако, скорее всего, это связано с тем, что тестовая выборка состоит из всех возможных подпоследовательностей длиной 6 нт, а ШД в них, по идее, максимум одна. Также роль может играть то, что исследуемая бактерия грамотрицательна, а для них обнаружен ШД-независимый способ инициации трансляции - с помощью рибосомального белка 1S. Помимо этого, достаточно много ложноположительных результатов, что может быть связано с небольшой длиной сигнала - 6 нт. IC сигнала 7.56, что довольно много для 6-мера (максимум для такой последовательности 12).
С помощью веб-сервиса WebLOGO 3 был построен график LOGO, из которого понятно, что самыми консервативными являются G на позициях 2,3,5,6.