Поиск de novo сигналов в ДНК

Подготовка данных

Мотивом для поиска я выбрал последовательность Шайна-Дальгарно. В качестве объекта я опробовал несколько бактерий- H. pylori, E. coli и Y. pestis, но почему-то с нормальной частотой последовательность Шайна-Дальгарно нашлась только в B. subtilis. Изучение литературных источников показало, что для грамотрицательных бактерий свойственно отсутствие как таковой последовательности Ш-Д (ну или если точнее, то она не является необходимой для старта трансляции, хотя у E. coli она описана, не знаю почему не получилось ее найти). Для подготовки положительной выборки последовательностей я вырезал часть генома перед старт-кодоном с учетом ориентации цепи, а для отрицательной выборки- просто определенный участок кодирующей последовательности той же длины.

MEME

В найденных последовательностях я попытался найти мотивы. Для этого я к полученным данным я применил команду

Такую длину мотива я выбрал, исходя из ожидаемой длины последовательности Шайна-Дальгарно. Выдачу программы вы можете найти по ссылке. Во всех 50 последовательностях нашелся мотив, его консенсус- AAAGGAG. Довольно похоже на последовательность Шайна-Дальгарно- программа отработала успешно.

FIMO

Далее, чтобы найти обнаруженный мотив где-нибудь еще, к полученным данным я применил две команды

Выдачу с положительным контролем вы можете найти по этой ссылке, а с отрицательным контролем- по этой ссылке. В положительном контроле нашлось всего 9 совпадений, это ожидаемо, т.к. мотив искался по строгому консенсусу. В отрицательном контроле нашлось 0 совпадений- все ожидаемо. Таким образом, программа отработала успешно.