Для поиска сигналов и построения их консунсусов я взял референсный геном сенной палочки (Bacillus subtilis) subsp. subtilis str. 168, он доступен по ссылке и файл с разметкой ORF в геноме в gff формате. Файлы были загружены в сервис Operon-mapper для получения предсказанных координат оперонов (файл).
Далее при помощи скрипта Петра Милейко, который ищет по ключевым словам в описании функции оперона 100 оперонов, содержащих гены домашнего хозяйства и записывает промоторные области длиной 100 нуклеотидов до точки старта данных оперонов в файл материала обучения. Также скрипт записывает в файл тестовой выборки промоторные области всех оперонов (2289 последовательностей). В качестве негативного контроля были выбраны последовательности в 100 нуклеотидов после каждого промотора (2289 последовательностей).
Для поиска сигналов в выбранных промоторных областях обучающей выборки я запустил программу MEME локально на сервере kodomo. Команда запуска:
В консенсусе первого мотива узнается последовательность Шайн-Дальгарно. При анализе второго мотива я посмотрел на его координаты в данном на вход программе предоперонном участке. Встречались значения координаты начала мотива около 30 и около 65 буквы в фрагменте. Как раз на координате 65, я ожидаю увидеть -35 сайт посадки промотора. В LOGO в позициях 10-15 можно разглядеть следы распознавания программой этого сайта (TTGACA), однако, я думаю, его мотив вероятнее было бы уловить на большей выборке и при параметрах meme -minw 6 -maxw 6. Предшествующая ему часть этого мотива - фрагмент UP Element, который различается у промоторов разных типов, однако обычно является A, T -богатым.
Для поиска сигналов в выбранных промоторных областях тестовой выборки и отрицательного контроля я запустил программу FIMO локально на сервере kodomo. Команды для запуска были идентичными:
Были получены следующие результаты:
Результаты поиска мотива 1
Тестовая выборка | Негативный контроль | |
Сигнал + | 1027 | 196 |
Сигнал - | 1262 | 2093 |
Тестовая выборка | Негативный контроль | |
Сигнал + | 1353 | 537 |
Сигнал - | 936 | 1752 |
Результаты поиска мотива 2 с порогом значимости 0,0001:
Тестовая выборка | Негативный контроль | |
Сигнал + | 294 | 76 |
Сигнал - | 1995 | 2213 |