Для поиска сигнала посадки сигма-субъединицы РНК-полимеразы в промоторах генов я выбрала бактерию Candidatus Phycosocius spiralis BOTRYCO-1. Я скачала ее геном в формате fasta и список генов в формате gff.
Далее с помощью сервиса Operon-mapper был получен список оперонов. Промотором будем считать 100 нуклеотидов перед опероном. В качестве материала для обучения было выбрано 50 генов домашнего хозяйства. Для негативного контроля использованы случайные последовательности генома длиной 100 нуклеотидов. Воспользовавшись скриптом Георгия Муравьева, я получила 3 файла: материал обучения, последовательности для тестирования и негативный контроль.
Для поиска мотивов я воспользовалась сервисом MEME-suit со следующими параметрами:
В результате был получен следующий файл: meme. Было найдено три мотива, как и указано в запросе (Рис.1, Рис.2, Рис.3). Однако e-value находок оказалось довольно большим. Я решила работать дальше с первым мотивом, так как он имеет лучшее e-value и оптимальную длину.
Выбранный мотив на сайте MEME siut был передан сервису FIMO. Далее я запустила программу для отобранных промоторов и для негативного контроля. Сначала я использовала e-value = 0.001, но нашлось мало последовательностей (27 из 337 последовательностей в положительном контроле). Поэтому я поменяла e-value на 0.01 и получила 248 находок из 337 в положительном контроле (positive) и 18 из 29 в негативном контроле (negative), что значительно меньше, чем в тестовой группе.