Поиск мотивов de novo

Подготовка данных

В качестве мотива для поиска я выбрал последовательность Шайна-Дальгарно в геноме бактерии Bacillus subtilis. По аннотации я отобрал по двадцать нуклеотидов перед старт-кодонами белок-кодирующих последовательностей из генома бактерии, не забыв учесть ориентацию цепи. Затем я случайно отобрал пятьдесят из них в положительную выборку. Сдвинув искомые координаты вглубь кодирующих последовательностей я собрал также отрицательные примеры по двадцать нуклеотидов из которых случайно отобрал пятьдесят последовательностей.

Программа MEME

Я применил программу meme в консоли и получил следующую выдачу: ссылка на выдачу. Для начала я искал три мотива длины 7, но второй и третий нашедшийся были крайне редки и нестроги, поэтому я оставил только один - AARGGAG - действительно напоминает последовательно Шайна-Дальгарно, считаю, что meme c задачей справилась.

Программа FIMO

Я применил программу fimo в консоли к положительным и отрицательным примерам и получил следующую выдачу: ссылка на выдачу для положительных примеров, ссылка на выдачу для отрицательных примеров. Как я понял, fimo избавилась от многозначности мотива и искала последовательности только с AAAGGAG, в положительных примерах таких нашлось пять, в отрицательных - ни одной. Стоит сказать, что пять последовательностей нашлось из за жесткого порога по p-value равного 0.0001. Таким образом, программа отработала штатно, результаты ожидаемы.