Поиск мотивов в ДНК

MEME и FIMO

-

Скачивание последовательностей для работы

Необходимо найти мотив одного сигнала с помощью программы или сервиса MEME и проверить его работу с помощью программы или сервиса FIMO - я буду работать с промотором house keeping genes.

Первым делом нужно найти последовательности с сигналом для позитивного контроля, для теста и без оного для негативного контроля - по 40 штук примерно.

Скачиваю сборку ASM584v2 - референсный геном E. coli str. K-12 substr. MG1655

С помощью Operon-mapper нашла координаты всех СDS, из них взяла те, которые мне нужны, и добыла последовательности нужных генов, использовав код Сергея Бушуева.

Теперь у нас есть выборки: train, test и negative control.

Запуск МЕМЕ
meme train.fa -dna -nmotifs 3 -minw 6 -maxw 50

Текстовая выдача meme

Logo 1

Первый мотив: width = 32 sites = 7 llr = 162 E-value = 1.0e-004

Logo 2

Второй мотив: width = 21 sites = 10 llr = 142 E-value = 2.2e+001

Logo 3

Третий мотив: width = 15 sites = 4 llr = 65 E-value = 2.4e+002

У первого самый маленький e-value (и единственный меньше единицы), поэтому возьму для анализа его.

Работа с FIMO
fimo --norc -motif GCRHTKSYRSTARAMTYCSSSCCYNTTTTKWW -thresh 0.01 ./meme_out/meme.txt test.fa

Запустила на тестовой выборке, обнаружено 37 находок, некоторые с p-value 0.7, что многовато

fimo --norc -motif GCRHTKSYRSTARAMTYCSSSCCYNTTTTKWW -thresh 0.01 ./meme_out/meme.txt test.fa

Запуск на негативном контроле, выдача, обнаружено 45 находок, хотя должно было быть меньше, чем в тесте.. И p-value получились получше.

На негативной выборке получились меньшие q-value, что совсем плохо. Должно было быть наоборот - на тесте больше находок с меньшим порогом.

Однако не знаю, как можно было бы улучшить этот результат, в работе meme глобально ничего не поменяешь, а найденные мотивы были не очень по e-value.