Подготовка данных

Для поиска сигнала посадки сигма-субъединицы РНК-полимеразы в промоторах генов я выбрала бактерию Candidatus Phycosocius spiralis BOTRYCO-1. Я скачала ее геном в формате fasta и список генов в формате gff.

Далее с помощью сервиса Operon-mapper был получен список оперонов. Промотором будем считать 100 нуклеотидов перед опероном. В качестве материала для обучения было выбрано 50 генов домашнего хозяйства. Для негативного контроля использованы случайные последовательности генома длиной 100 нуклеотидов. Воспользовавшись скриптом Георгия Муравьева, я получила 3 файла: материал обучения, последовательности для тестирования и негативный контроль.

Запуск MEME

Для поиска мотивов я воспользовалась сервисом MEME-suit со следующими параметрами:

В результате был получен следующий файл: meme. Было найдено три мотива, как и указано в запросе (Рис.1, Рис.2, Рис.3). Однако e-value находок оказалось довольно большим. Я решила работать дальше с первым мотивом, так как он имеет лучшее e-value и оптимальную длину.

Рис. 1 Первый мотив, e-value = 1.2e+000
Рис. 2 Второй мотив, e-value = 4.1e+001
Рис. 3 Третий мотив, e-value = 1.8e+002

Поиск сигнала в материале для тестирования с помощью FIMO

Выбранный мотив на сайте MEME siut был передан сервису FIMO. Далее я запустила программу для отобранных промоторов и для негативного контроля. Сначала я использовала e-value = 0.001, но нашлось мало последовательностей (27 из 337 последовательностей в положительном контроле). Поэтому я поменяла e-value на 0.01 и получила 248 находок из 337 в положительном контроле (positive) и 18 из 29 в негативном контроле (negative), что значительно меньше, чем в тестовой группе.