Для выполнения практикума я выбрала геном бактерии Staphylococcus aureus. Использовался референсный геном GCF_000418345.1. Для получения списка оперонов я использовала файлы с последовательностью и аннотацией, а также сервис Operon-mapper.
Затем необходимо было составить список координат промоторов. В укзааниях предложено промотором считать область 100 нуклеотидов перед началом оперона. Выбрала 50 промоторов оперонов из генов домашнего хозяйства, скачала их последовательности в файл для обучения MEME. Затем скачала последовательности оперонов. Собрала их в файл для тестирования мотива. Составила файл для негативного контроля.
Вышеперечисленные действия выполнены с помощью адаптированного скрипта Муравьева Георгия. Выражаю огромную благодарность!
Для выполнения этого задания использовался локальный MEME. Для запуска использовался код:
meme housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50
В результате работы программы найдено 3 мотива - 2 из них (Рис.1 и Рис.2) имеют очень хороший e-value и они очень похожи на последовательность SD.
Так же прикрепляю текстовую выдачу программы MEME
Далее было решено работать с первой нахдной, так как у нее самый лучший e-value.
Для того, чтобы найти выбранный мотив в положительном и отрицательном контроле, использовала следующие команды:
fimo --norc -motif WWWWWTTCCTCC -thresh 0.001 meme.txt promotors.fasta
fimo --norc -motif WWWWWTTCCTCC -thresh 0.001 meme.txt negative.fasta
'
В результате работы программы получились следующие файлы: находки в положительном контроле