Поиск de novo сигналов в ДНК
Подготовка данных
Мотивом для поиска я выбрал последовательность Шайна-Дальгарно. В качестве объекта я опробовал несколько бактерий- H. pylori, E. coli и Y. pestis, но почему-то с нормальной частотой последовательность Шайна-Дальгарно нашлась только в B. subtilis. Изучение литературных источников показало, что для грамотрицательных бактерий свойственно отсутствие как таковой последовательности Ш-Д (ну или если точнее, то она не является необходимой для старта трансляции, хотя у E. coli она описана, не знаю почему не получилось ее найти). Для подготовки положительной выборки последовательностей я вырезал часть генома перед старт-кодоном с учетом ориентации цепи, а для отрицательной выборки- просто определенный участок кодирующей последовательности той же длины.
MEME
В найденных последовательностях я попытался найти мотивы. Для этого я к полученным данным я применил команду
- meme sd_pos.fa -dna -nmotifs 1 -minw 7 -maxw 9
Такую длину мотива я выбрал, исходя из ожидаемой длины последовательности Шайна-Дальгарно. Выдачу программы вы можете найти по ссылке. Во всех 50 последовательностях нашелся мотив, его консенсус- AAAGGAG. Довольно похоже на последовательность Шайна-Дальгарно- программа отработала успешно.
FIMO
Далее, чтобы найти обнаруженный мотив где-нибудь еще, к полученным данным я применил две команды
- fimo --oc fimo_positive meme_out/meme.txt sd_pos.fa
- fimo --oc fimo_negative meme_out/meme.txt sd_neg.fa
Выдачу с положительным контролем вы можете найти по этой ссылке, а с отрицательным контролем- по этой ссылке. В положительном контроле нашлось всего 9 совпадений, это ожидаемо, т.к. мотив искался по строгому консенсусу. В отрицательном контроле нашлось 0 совпадений- все ожидаемо. Таким образом, программа отработала успешно.