В данном задании я использовал геном бактерии Escherichia coli O157 штамм 644-PT8. Используя файл с геномом этой бактерии я получил список оперонов на сайте дерево. Далеее я использовал код Георгия Муравьева для генерирования выборок обучения, теста и негативного контроля. На выходе я получил три файла: housekeeping.fasta, negative.fasta, promotors.fasta. Длина каждой последовательности равна 100.
Далее я использовал программу MEME на kodomo для поиска сигналов в выборке для обучения. Для запуска я использовал команду:
$meme housekeeping.fasta -dna -nmotifs 5 -minw 6
Результаты представлены на странице. Как можно заметить, у всех мотивов довольно высокое E-value, что может говорить о том, что сигналы не значимы с точки зрения статистики. Я возьму для дальнейшего анализа мотив с наименьшим E-value (4.7), т.е KWWTAAWWWHAWTYWTYTATDAAWTWWW.
Для запуска этой программы я использовал команды:
$fimo --norc -motif KWWTAAWWWHAWTYWTYTATDAAWTWWW -thresh 0.001 ./meme_out/meme.txt ./promotors.fasta
$fimo --norc -motif KWWTAAWWWHAWTYWTYTATDAAWTWWW -thresh 0.001 ./meme_out/meme.txt ./negative.fasta
Результат для тестовой выборки представлен на странице, для контрольной - странице. В результате для тестовой выборки мотив найден в 1465 последовательностях из 5790, а в контрольной 29 из 326. В тестовой выборке значительно больший процент последовательностей содержит данный мотив по сравнению с контролем, но при этом в тестовой выборке только четверть промоторов содержит мотив. Это подтверждает вывод из предыдущего пунка, что мотив статистически не значим. Это значит, что он не несет информации, а скорее это связано с использованием генов домашнего хозяйства в обучающей выборке. Не удивительно, что большая часть генов имеют сигналы для узнавания специфических сигма-факторов.