Для работы был выбран референсный геном Salmonella enterica (GCF_000006955.2) (список оперонов). С помощью скрипта Муравьева Георгия были получены следующие файлы: 50 генов домашнего хозяйства - для обучения, промоторы - 100 нуклеотидов перед опероном и негативный контроль - случайные последовательности.
После обработки данных была запущена программа MEME с параметром 3 для поиска 3 мотивов:
meme housekeeping.fasta -dna -nmotifs 3
Были найдены следующие мотивы:
Первый мотив. E-value = 1.1e+000
Второй мотив. E-value = 3.4e+001
Третий мотив. E-value = 1.7e+001
Первый мотив кажется малосодержательным, поэтому в дальнейшем работа шла с третьим мотивом
С помощью fimo был произведён поиск третьего мотива в промоторах и в негативном контроле. В результате мотив был найден в 330 промоторах и в 21 случайных последовательности. Таблица и HTML для положительного контроля, таблица и HTML для отрицательного контроля