Я выбрала теломерные повторы в качестве сигнала в геноме. Теломер предстовляет мобой высокоспециализировванные ДНК-белковыне компелексы, котроые защищают хромосому от деградации и слияния. Теломерная ДНК у человека чаще весго состоит из дистальных повторов TTAGGG, так же есть варианты TTGGGG и TGAGGGGG. Этот сигнал адрессован теломер-связывающим белкам, котрые свяжутся с этими последовательностями, из-за нависания G-цепи, образуется защищающая конец T-петля. Теломерные повторы являются сильным сигналом, так как во всех хромосомах теломерная область хорошо защищена.
Список литературы:
Martínez, P., Blasco, M. Telomeric and extra-telomeric roles for telomerase and the telomere-binding proteins. Nat Rev Cancer 11, 161–176 (2011). https://doi.org/10.1038/nrc3025
Janet Lindsey, Niolette I. McGill, Leon A. Lindsey, Daryll K. Green, Howard J. Cooke, In vivo loss of telomeric repeats with age in humans, Mutation Research/DNAging, Volume 256, Issue 1, 1991, Pages 45-48, ISSN 0921-8734, https://doi.org/10.1016/0921-8734(91)90032-7.
Для изучения я выброла бактерию Bacillus subtilis NRS6116.
Ссылка на аннотированную геномную сборку
С помощью скрипта, котрый я взяла у Каримовой Карины (с ее разрешения), были найдены последовательности длиной 20 пн до старт-кодона, затем из них была отобрана обучающая выборка — последовательности длиной 6, которые имеют не больше 1 несовпадающей пары с последовательностью Шайна-Дальгарно (AGGAGG). В качестве негативной выборки использовались последовательности длиной 20 пн в районе +100 от старт-кодона.
Затем, по обучающей выборке была построена матрица PWM c pseudocount = 0.1 для всех азотистых оснований.
баз. частоты | 1 | 2 | 3 | 4 | 5 | 6 | |
---|---|---|---|---|---|---|---|
A | 0.282 | 1.087 | -1.616 | -1.805 | 1.146 | -1.636 | -0.941 |
T | 0.283 | -1.428 | -2.269 | -3.267 | -2.278 | -2.145 | -1.357 |
G | 0.217 | -1.204 | 1.426 | 1.455 | -1.142 | 1.425 | 1.273 |
C | 0.218 | -1.962 | -2.932 | -2.842 | -2.719 | -3.114 | -1.648 |
Для всех 6-меров в трех выборках были посчитаны веса по нашей PWM матрице (рис 1-3).
На основе весов, был выбран порог 2.5 и посчитано количество 6-меров, которые, как мы полгагаем, являются данным сигналом.
Обучающая выборка | Тестовая выборка | Негативная выборка | |
---|---|---|---|
Сигнал(+) | 3625 | 4744 | 611 |
Сигнал(-) | 0 | 60731 | 64879 |
Информационное содержание IC выравнивания равно 8.1. Это очень высокое значение для последовательности из 6 нуклеотидов(максимальное IC в таком случае равнялось бы 12).
С помощью программы WebLOGO 3 был построен LOGO этого сигнала.
Все тесты сработали хорошо, выборки хорошо разделились и лого получилось соотвественно достаточно достоверное.