Поиск сигналов de-novo

Для поиска я выбрал тот же сигнал, что и в 8 практикуме - последовательность Шайна-Дальгарно. На этот раз поиск осуществлялся в геноме грамположительной бактерии Staphylococus aureus. В качестве положительной выборки с помощью скрипта были извлечены 2290 участков длиной 20 нт непосредственно перед старт кодоном. В качестве отрицательной - 2240 участков с 100 по 120 позиции CDS. В качестве обучающей выборки из положительной случайно были выбраны 250 последовательностей.

С помощью вышеприведенной команды был найден мотив с E-value 4.3e-045. Такой маленький E-value позволяет утверждать что с очень высокой вероятностью найден реальный мотив. Из 250 последовательностей обучающей выборки, мотив содержали 101.

Рис.1 LOGO мотива, найденного MEME

Консенсус, полученный MEME очень похож на реальный консенсус ШД, однако длина найденного сигнала несколько больше - 8, а не 6 нуклеотидов.

С помощью веб-сервиса FIMO, с использованием данных, полученных из MEME, был произведен поиск сигнала в тестовой выборке (положительная выборка - обучающая). В результате из 2040 последовательностей, в 256 был найден сигнал с p-value <= 0.0001. Что является не лучшим результатом. Ссылка на результат работы FIMO.

Таким же образом был проведен поиск сигнала в выборке отрицательного контроля. В нём же обнаружилось только 85 мотивов среди 2040 последовательности. Ссылка на результат работы FIMO.