В качестве сигнала я выбрал последовательность Шайна-Дальгарно для бактерии Clostridium butyricum. При выполнении заданий использовался представленный референсный геном бактерии Clostridium butyricum
При выполнении данного практикума использовался набор скриптов написанный Кариной Каримовой.
С помощью скрипта получаем набор последовательностей состоящих из первых 20 нуклеотидов перед старт-кодоном, всего 4033 таких последовательности. Эти последовательности составляют т.е обучающую выборку. Далее, мы отбираем из этих двадцатинуклеотидных последовательностей 6 нуклеотидные. При условии, что они имеют не более одной некомплементарной пары с последовательностью Шайна-Дальгарно. Данная выборка называется тестируемой, она содержит 2740 последовательностей. Наконец, для негативного контроля мы составим выборку из 20-нуклеотидных последовательностей находящихся на расстоянии сотни пар нуклеотидов от стоп-кодона. Теперь, построим матрицу PWM:
Рис 1. Матрица PWM для SD последовательностей Clostridium Butyricum
С помощью матрицы построим гистограммы весов для выборок:
Рис 2. Гистограмма веса для обучающей выборки
Рис 3. Гистограмма веса для тестируемой выборки
Рис 4. Гистограмма веса для негативного контроля
На основании данных представленных на гистограммах в качестве порогового значения веса было выбрано число 4.5, результаты поиска SD приведены ниже. Значение IC=9.624
Рис 5. Результаты поиска сигнала, плюсом обозначено наличие сигнала, сверху вниз: тестируемая выборка, обучающая выборка, негативный контроль.
Рис 6. LOGO для SD Clostridium butyricum полученное с помощью сервиса WebLOGO 3