Практиум 8

Сигналы и мотивы.


Теломерные повторы.

Я выбрала теломерные повторы в качестве сигнала в геноме. Теломер предстовляет мобой высокоспециализировванные ДНК-белковыне компелексы, котроые защищают хромосому от деградации и слияния. Теломерная ДНК у человека чаще весго состоит из дистальных повторов TTAGGG, так же есть варианты TTGGGG и TGAGGGGG. Этот сигнал адрессован теломер-связывающим белкам, котрые свяжутся с этими последовательностями, из-за нависания G-цепи, образуется защищающая конец T-петля. Теломерные повторы являются сильным сигналом, так как во всех хромосомах теломерная область хорошо защищена.

Список литературы:

Martínez, P., Blasco, M. Telomeric and extra-telomeric roles for telomerase and the telomere-binding proteins. Nat Rev Cancer 11, 161–176 (2011). https://doi.org/10.1038/nrc3025

Janet Lindsey, Niolette I. McGill, Leon A. Lindsey, Daryll K. Green, Howard J. Cooke, In vivo loss of telomeric repeats with age in humans, Mutation Research/DNAging, Volume 256, Issue 1, 1991, Pages 45-48, ISSN 0921-8734, https://doi.org/10.1016/0921-8734(91)90032-7.

Построение PWM для последовательностей Шайна-Дальгарно.


Для изучения я выброла бактерию Bacillus subtilis NRS6116.

Ссылка на аннотированную геномную сборку

С помощью скрипта, котрый я взяла у Каримовой Карины (с ее разрешения), были найдены последовательности длиной 20 пн до старт-кодона, затем из них была отобрана обучающая выборка — последовательности длиной 6, которые имеют не больше 1 несовпадающей пары с последовательностью Шайна-Дальгарно (AGGAGG). В качестве негативной выборки использовались последовательности длиной 20 пн в районе +100 от старт-кодона.

Затем, по обучающей выборке была построена матрица PWM c pseudocount = 0.1 для всех азотистых оснований.

Таблица 1. Матрица PWM последовательностей Шайна-Дальгарно бактерии Bacillus subtilis NRS6116
баз. частоты 1 2 3 4 5 6
A 0.282 1.087 -1.616 -1.805 1.146 -1.636 -0.941
T 0.283 -1.428 -2.269 -3.267 -2.278 -2.145 -1.357
G 0.217 -1.204 1.426 1.455 -1.142 1.425 1.273
C 0.218 -1.962 -2.932 -2.842 -2.719 -3.114 -1.648

Для всех 6-меров в трех выборках были посчитаны веса по нашей PWM матрице (рис 1-3).

-
Рис. 1. Гистограмма весов последовательностей обучающей выборки
-
Рис. 2. Гистограмма весов 6-меров последовательностей тестовой выборки
-
Рис. 3. Гистограмма весов 6-меров последовательностей негативной выборки

На основе весов, был выбран порог 2.5 и посчитано количество 6-меров, которые, как мы полгагаем, являются данным сигналом.

Таблица 2. Результаты поиска в разных выборках последовательности Шайна-Дальгарно.
Обучающая выборка Тестовая выборка Негативная выборка
Сигнал(+) 3625 4744 611
Сигнал(-) 0 60731 64879

Информационное содержание IC выравнивания равно 8.1. Это очень высокое значение для последовательности из 6 нуклеотидов(максимальное IC в таком случае равнялось бы 12).

С помощью программы WebLOGO 3 был построен LOGO этого сигнала.

LOGO
Рис. 4. LOGO для последоватльности Шайна-Дальгарно бактерии Bacillus subtilis NRS6116

Все тесты сработали хорошо, выборки хорошо разделились и лого получилось соотвественно достаточно достоверное.