Поиск сигналов





Подготовка данных

В данном задании я использовал геном бактерии Escherichia coli O157 штамм 644-PT8. Используя файл с геномом этой бактерии я получил список оперонов на сайте дерево. Далеее я использовал код Георгия Муравьева для генерирования выборок обучения, теста и негативного контроля. На выходе я получил три файла: housekeeping.fasta, negative.fasta, promotors.fasta. Длина каждой последовательности равна 100.


Запуск МЕМЕ

Далее я использовал программу MEME на kodomo для поиска сигналов в выборке для обучения. Для запуска я использовал команду:

$meme housekeeping.fasta -dna -nmotifs 5 -minw 6

Результаты представлены на странице. Как можно заметить, у всех мотивов довольно высокое E-value, что может говорить о том, что сигналы не значимы с точки зрения статистики. Я возьму для дальнейшего анализа мотив с наименьшим E-value (4.7), т.е KWWTAAWWWHAWTYWTYTATDAAWTWWW.





Запуск FIMO

Для запуска этой программы я использовал команды:

$fimo --norc -motif KWWTAAWWWHAWTYWTYTATDAAWTWWW -thresh 0.001 ./meme_out/meme.txt ./promotors.fasta

$fimo --norc -motif KWWTAAWWWHAWTYWTYTATDAAWTWWW -thresh 0.001 ./meme_out/meme.txt ./negative.fasta

Результат для тестовой выборки представлен на странице, для контрольной - странице. В результате для тестовой выборки мотив найден в 1465 последовательностях из 5790, а в контрольной 29 из 326. В тестовой выборке значительно больший процент последовательностей содержит данный мотив по сравнению с контролем, но при этом в тестовой выборке только четверть промоторов содержит мотив. Это подтверждает вывод из предыдущего пунка, что мотив статистически не значим. Это значит, что он не несет информации, а скорее это связано с использованием генов домашнего хозяйства в обучающей выборке. Не удивительно, что большая часть генов имеют сигналы для узнавания специфических сигма-факторов.