Практикум 9

Поиск de novo сигналов в ДНК

Я взял неклассифицированную бактерию из клады Gracilibacteria, с которой работал до этого в практикуме 13 первого семестра и в практикуме 8 этого.

Нашел опероны с помощью Operon-mapper; хромосомную таблицу из GenBank в него не загружал, использовал только саму последовательность. Выдача в файле.

Вырезал из хромосомы промоторы для обучения и теста и отрицательный контроль с помощью немного модифицированного скрипта Георгия Муравьева. Скрипт находит гены "домашнего хозяйства" по словам "ribosomal", "polymerase", "transcription", "translation" и "ATP synthase", и я использую их как материал обучения.

Запустил MEME с помощью веб-сервиса. В настройках указал, что мотив нужно искать только в одной цепи, все остальные настройки оставил дефолтными.

Картинка с результатами работы MEME приведена на рис. 1.

MEME_RESULT
Рис. 1. Результаты работы MEME

В выборке промоторов, которую я подал на вход MEME, 85 последовательностей. Мотива, который встречался бы в заметной доле из них, не нашлось. Самый распространенный мотив, он же самый значимый, встречается в 9 последовательностях и имеет E-value 1,7×10−6. Он очень длинный, 50 нуклеотидов. Другой нашедшийся мотив имеет E-value 0,06, длиной 29 нуклеотидов и встречается в 7 последовательностях. Третий мотив, с E-value 20, едва ли стоит обсуждать.

Я решил искать с помощью FIMO первый мотив. В тестовую выборку я включил все промоторы, кроме тех, на которых запускал MEME (1466 штук), в контрольную — столько же случайных мест в геноме. В настройках FIMO указал искать мотив только в одной цепи. Порог p-value по умолчанию был равен 0,0001, я оставил его таким. Значимость первых 15 находок для теста и контроля приведена в табл. 1.

Табл. 1. Самые значимые находки FIMO
Промоторы Контроль
q-value p-value p-value q-value
1.07e-09 5.52e-05 5.49e-13 2.72e-08
7.61e-07 0.0197 1.13e-07 0.0028
1.45e-06 0.025 6.91e-06 0.0956
4.62e-06 0.0596 1.05e-05 0.0956
1.11e-05 0.099 1.27e-05 0.0956
1.15e-05 0.099 1.5e-05 0.0956
1.84e-05 0.102 1.66e-05 0.0956
2.1e-05 0.102 1.78e-05 0.0956
2.24e-05 0.102 1.84e-05 0.0956

Как видно, они выглядят практически одинаково, первая находка даже значимее в контроле. В тестовой выборке находок побольше, 44 против 25, но все остальные тоже имеют q-value порядка 0,1 т.е. незначимы с поправкой на множественное сравнение (надо было понизить порог p-value на порядок, чтобы их не было в выдаче, хотя это, в общем, не так важно).

Кажется, таким методом никакого реального мотива, имеющего биологический смысл, найти не удалось, и результат MEME все-таки случаен.

Материалы и методы

Прикрепляю ссылки на файлы, которые я использовал: материал обучения, материал тестирования, материал контроля, выдача MEME, выдача FIMO для теста, выдача FIMO для контроля.