Поиск de novo сигналов в ДНК
Я взял неклассифицированную бактерию из клады Gracilibacteria, с которой работал до этого в практикуме 13 первого семестра и в практикуме 8 этого.
Нашел опероны с помощью Operon-mapper; хромосомную таблицу из GenBank в него не загружал, использовал только саму последовательность. Выдача в файле.
Вырезал из хромосомы промоторы для обучения и теста и отрицательный контроль с помощью немного модифицированного скрипта Георгия Муравьева. Скрипт находит гены "домашнего хозяйства" по словам "ribosomal", "polymerase", "transcription", "translation" и "ATP synthase", и я использую их как материал обучения.
Запустил MEME с помощью веб-сервиса. В настройках указал, что мотив нужно искать только в одной цепи, все остальные настройки оставил дефолтными.
Картинка с результатами работы MEME приведена на рис. 1.
В выборке промоторов, которую я подал на вход MEME, 85 последовательностей. Мотива, который встречался бы в заметной доле из них, не нашлось. Самый распространенный мотив, он же самый значимый, встречается в 9 последовательностях и имеет E-value 1,7×10−6. Он очень длинный, 50 нуклеотидов. Другой нашедшийся мотив имеет E-value 0,06, длиной 29 нуклеотидов и встречается в 7 последовательностях. Третий мотив, с E-value 20, едва ли стоит обсуждать.
Я решил искать с помощью FIMO первый мотив. В тестовую выборку я включил все промоторы, кроме тех, на которых запускал MEME (1466 штук), в контрольную — столько же случайных мест в геноме. В настройках FIMO указал искать мотив только в одной цепи. Порог p-value по умолчанию был равен 0,0001, я оставил его таким. Значимость первых 15 находок для теста и контроля приведена в табл. 1.
Промоторы | Контроль | ||
---|---|---|---|
q-value | p-value | p-value | q-value |
1.07e-09 | 5.52e-05 | 5.49e-13 | 2.72e-08 |
7.61e-07 | 0.0197 | 1.13e-07 | 0.0028 |
1.45e-06 | 0.025 | 6.91e-06 | 0.0956 |
4.62e-06 | 0.0596 | 1.05e-05 | 0.0956 |
1.11e-05 | 0.099 | 1.27e-05 | 0.0956 |
1.15e-05 | 0.099 | 1.5e-05 | 0.0956 |
1.84e-05 | 0.102 | 1.66e-05 | 0.0956 |
2.1e-05 | 0.102 | 1.78e-05 | 0.0956 |
2.24e-05 | 0.102 | 1.84e-05 | 0.0956 |
Как видно, они выглядят практически одинаково, первая находка даже значимее в контроле. В тестовой выборке находок побольше, 44 против 25, но все остальные тоже имеют q-value порядка 0,1 т.е. незначимы с поправкой на множественное сравнение (надо было понизить порог p-value на порядок, чтобы их не было в выдаче, хотя это, в общем, не так важно).
Кажется, таким методом никакого реального мотива, имеющего биологический смысл, найти не удалось, и результат MEME все-таки случаен.