Для поиска я выбрал тот же сигнал, что и в 8 практикуме - последовательность Шайна-Дальгарно. На этот раз поиск осуществлялся в геноме грамположительной бактерии Staphylococus aureus. В качестве положительной выборки с помощью скрипта были извлечены 2290 участков длиной 20 нт непосредственно перед старт кодоном. В качестве отрицательной - 2240 участков с 100 по 120 позиции CDS. В качестве обучающей выборки из положительной случайно были выбраны 250 последовательностей.
С помощью вышеприведенной команды был найден мотив с E-value 4.3e-045. Такой маленький E-value позволяет утверждать что с очень высокой вероятностью найден реальный мотив. Из 250 последовательностей обучающей выборки, мотив содержали 101.
Консенсус, полученный MEME очень похож на реальный консенсус ШД, однако длина найденного сигнала несколько больше - 8, а не 6 нуклеотидов.
С помощью веб-сервиса FIMO, с использованием данных, полученных из MEME, был произведен поиск сигнала в тестовой выборке (положительная выборка - обучающая). В результате из 2040 последовательностей, в 256 был найден сигнал с p-value <= 0.0001. Что является не лучшим результатом. Ссылка на результат работы FIMO.
Таким же образом был проведен поиск сигнала в выборке отрицательного контроля. В нём же обнаружилось только 85 мотивов среди 2040 последовательности. Ссылка на результат работы FIMO.