Подготовка данных
Для выполнения практикума был выбран геном Mycobacterium tuberculosis H37Rv. На основе файлов с последовательностью (*.fasta) и аннотацией (*.gff) с использованием сервиса Operon-mapper был получен список оперонов. Промотором считается область 100 нуклеотидов перед началом оперона. Был использован скрипт однокурсника Георгия Муравьева для получения файла обучения, тестирования и негативного контроля
Запуск Meme
Найденные 3 мотива довольно надежны т.к. имеют высокие e-value. Одна из последовательностей имеет богатый GC состав и вряд ли эта находка имеет смысл. Для дальнейшей работы я выбрал мотив 3.