Для выполнения практикума я выбрал бактерию Escherichia coli, штамм O157:H7 str. Sakai. Файл с последовательностью хромосомы доступен по ссылке.
Поиск оперонов производился в программе Operon-mapper. Среди выходных файлов программы — список оперонов. Отбор промоторов для обучающего набора производился по ключевым словам ("ribosomal", "repair", "polymerase", "tRNA synthetase", "ATP synthase", "topoisomerase", "sucrose"), по которым можно найти гены домашнего хозяйства в списке оперонов. Промотором считалась область длиной 100 п.о. перед началом оперона. В обучающем наборе оказалось 74 промотора длиной 100 п.о. В тестовый набор попали все 2707 промоторов. Для получения файла с негативным контролем из хромосомы были вырезаны 2707 случайных последовательностей длиной 100 п.о.список оперонов.
Для поиска мотивов использовался онлайн-сервис MEME-suite со следующими параметрами:
Выдача программы в формате TXT доступна по ссылке.
Как и ожидалось, МЕМЕ нашёл три мотива, представленные на рисунках 1—3 и имеющие E-value, соответственно, 9.4e-001, 1.1e+001, 1.2e+003. Все значения E-value очень высоки, и для дальнейшей работы я взял Мотив 1 с наименьшим E-value (а ещё он самый распространённый).
Рис. 1. LOGO мотива 1.
Рис. 2. LOGO мотива 2.
Рис. 3. LOGO мотива 3.
Для поиска выбранного мотива в тестовом наборе использовалась онлайн программа FIMO. Вначале был выбран порог E-value 0.01. Выдача программы в формате TSV доступна по ссылке. Программа нашла 6491 мотив в 2268 промоторах — слишком высокая концентрация. В связи с этим порог был понижен до 0.001. Выдача программы по ссылке. На этот раз FIMO нашёл 973 сигнала в 769 промоторах — тоже много, но явно лучше, чем в прошлый раз. В конце концов, я понизил порог до 0.0001 (TSV), и в 174 последовательностях нашлось 182 мотива.
Сравним результаты с поиском по негативному контролю. С порогом 0.001 нашлось 509 находок (в 435 сиквенсах). С порогом 0.0001 нашлось 77 находок (в 75 сиквенсах). Очевидно, что при снижении порога уменьшается количество находок, но при этом возрастает специфичность, как в тестовом наборе, так и в отрицательном. В среднем, число находок в отрицательном контроле вдвое меньше, чем в тестовом.