Я решила выбрать бактерию Mycobacterium tuberculosis. Она вызывает туберкулёз у человека в 92% случаев.
Скачала два файла: FASTA (файл с последовательностью хромосомы) и GFF (аннотация). Загрузила их в Operon Mapper, чтобы получить список оперонов. По ключевым словам были отобраны гены домашнего хозяйства. В качестве отрицательного контроля были использованы случайные последовательности длиной 100 нуклеотидов (той же длины, что и промоторы).
Скрипт для получения выборок взяла у нашего старшего товарища Георгия Муравьёва
Получила 3 файла:
Попробовала воспользоваться локальной версией на kodomo и сервисом MEME-suit.
Поиск мотивов на одной цепи:
meme housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50
Описание параметров:
Выдача meme: текстовый формат, html-формат
MEME нашёл три мотива, LOGO и характеристики для которых представлены ниже:
Меня, конечно, немного смущает выское GC содержание в первом мотиве, но у него наименьший и в целом адекватный e-value, поэтому сосредоточусь на нём.
Я проверила первый мотив CRRCGACGAKGBVGWGSSMAGCGATGAGGAGVAGMDSSGC на материвле тестирования и выборке отрицательного контроля, запустив консольную версию FIMO на kodomo:
fimo -motif CRRCGACGAKGBVGWGSSMAGCGATGAGGAGVAGMDSSGC --norc --thresh 0.001 meme_out/meme.txt promotors.fasta
fimo -motif CRRCGACGAKGBVGWGSSMAGCGATGAGGAGVAGMDSSGC --norc --thresh 0.001 --o fimo2_out meme_out/meme.txt negative.fasta
Среди промоторов было найдено 2 315 последовательностей, подходящих под мотив с p-value меньше 0.001, а среди выборки отрицательного контроля – 263 последовательности.