Для данного практикума я взял бактерию Escherichia coli K-12 (MG1655). Скачал последовательность хромосомы и анотацию в формате GFF. Подал их на вход сервису Operon-mapper и получил список оперонов.
Cчитая область 100 нуклеотидов перед началом оперона промотором, возьмем из них промоторы домашнего хозяйства. Материал обучения - промоторы домашнего хозяйства. Материал тестирования - промоторы всех опреонов. Негативный контроль - случайные 100 пн последовательности.
Для выполнения этого задания использовался локальный MEME. Для запуска использовался код:
meme housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50
В результате работы программы найдено 3 мотива, представленные на Рис.1, Рис.2 и Рис.3.
Текстовая выдача программы MEME
LOGO 1 был выбран для дальнейшей работы, так как соответствующий e-value самый низкий.
Для поиска выбранного мотива в положительном и отрицательном контроле использовались следующие команды:
fimo --norc -motif GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTS -thresh 0.001 meme.txt promoters.txt
fimo --norc -motif GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTS -thresh 0.001 meme.txt negative.txt
В результате получилось, что среди всех промоторов нашлось 416 находок, а среди негативного контроля - 39 находок.