-
Необходимо найти мотив одного сигнала с помощью программы или сервиса MEME и проверить его работу с помощью программы или сервиса FIMO - я буду работать с промотором house keeping genes.
Первым делом нужно найти последовательности с сигналом для позитивного контроля, для теста и без оного для негативного контроля - по 40 штук примерно.
Скачиваю сборку ASM584v2 - референсный геном E. coli str. K-12 substr. MG1655
С помощью Operon-mapper нашла координаты всех СDS, из них взяла те, которые мне нужны, и добыла последовательности нужных генов, использовав код Сергея Бушуева.
Теперь у нас есть выборки: train, test и negative control.
meme train.fa -dna -nmotifs 3 -minw 6 -maxw 50
Первый мотив: width = 32 sites = 7 llr = 162 E-value = 1.0e-004
Второй мотив: width = 21 sites = 10 llr = 142 E-value = 2.2e+001
Третий мотив: width = 15 sites = 4 llr = 65 E-value = 2.4e+002
У первого самый маленький e-value (и единственный меньше единицы), поэтому возьму для анализа его.
fimo --norc -motif GCRHTKSYRSTARAMTYCSSSCCYNTTTTKWW -thresh 0.01 ./meme_out/meme.txt test.fa
Запустила на тестовой выборке, обнаружено 37 находок, некоторые с p-value 0.7, что многовато
fimo --norc -motif GCRHTKSYRSTARAMTYCSSSCCYNTTTTKWW -thresh 0.01 ./meme_out/meme.txt test.fa
Запуск на негативном контроле, выдача, обнаружено 45 находок, хотя должно было быть меньше, чем в тесте.. И p-value получились получше.
На негативной выборке получились меньшие q-value, что совсем плохо. Должно было быть наоборот - на тесте больше находок с меньшим порогом.
Однако не знаю, как можно было бы улучшить этот результат, в работе meme глобально ничего не поменяешь, а найденные мотивы были не очень по e-value.