Практикум 8:

PWM для последовательности Шайна-Дальгарно Clostridium butyricum.

В качестве сигнала я выбрал последовательность Шайна-Дальгарно для бактерии Clostridium butyricum. При выполнении заданий использовался представленный референсный геном бактерии Clostridium butyricum

При выполнении данного практикума использовался набор скриптов написанный Кариной Каримовой.

С помощью скрипта получаем набор последовательностей состоящих из первых 20 нуклеотидов перед старт-кодоном, всего 4033 таких последовательности. Эти последовательности составляют т.е обучающую выборку. Далее, мы отбираем из этих двадцатинуклеотидных последовательностей 6 нуклеотидные. При условии, что они имеют не более одной некомплементарной пары с последовательностью Шайна-Дальгарно. Данная выборка называется тестируемой, она содержит 2740 последовательностей. Наконец, для негативного контроля мы составим выборку из 20-нуклеотидных последовательностей находящихся на расстоянии сотни пар нуклеотидов от стоп-кодона. Теперь, построим матрицу PWM:

phosphatase

Рис 1. Матрица PWM для SD последовательностей Clostridium Butyricum

С помощью матрицы построим гистограммы весов для выборок:

phosphatase

Рис 2. Гистограмма веса для обучающей выборки

phosphatase

Рис 3. Гистограмма веса для тестируемой выборки

phosphatase

Рис 4. Гистограмма веса для негативного контроля

На основании данных представленных на гистограммах в качестве порогового значения веса было выбрано число 4.5, результаты поиска SD приведены ниже. Значение IC=9.624

phosphatase

Рис 5. Результаты поиска сигнала, плюсом обозначено наличие сигнала, сверху вниз: тестируемая выборка, обучающая выборка, негативный контроль.

phosphatase

Рис 6. LOGO для SD Clostridium butyricum полученное с помощью сервиса WebLOGO 3