Возьму бактерию Salmonella enterica. Выбор обоснован тем, что она часто заражает птиц и крупный рогатый скот, что вызывает много боли у людей с домашним хозяйством...
Скачиваю два файла: FASTA и GFF (фаста-файл с последовательностью хромосомы и его аннотация). Оба файла загружаю в Operon Mapper для того, чтобы получить список оперонов. Промотором будем считать 100 нуклеотидов до оперона. Так как Operon Mapper предоставляет функции оперонов, то по нему можно отобрать гены домашнего хозяйства по ключевым словам. В качестве негативного контроля можно использовать случайные последовательности длины 100 (чтобы длина контроля совпадала с длиной промоторов).
Скрипт, как и в прошлом практикуме, взяла у братьев наших старших (Муравьева Георгия)
Из скрипта получаем три файла:
Попробую воспользоваться и локальным МЕМЕ с кодомо, и MEME-suit
meme housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50 -maxsites 50
Описание параметров (поиск мотивов на одной цепи):
Выдача meme: txt-формат и html-формат
Итак, МЕМЕ нашел три мотива, logo которых представлены ниже:
Я выберу для дальнейшей работы второй мотив: он как бы "средний" из всех и по длине, и по содержанию (первый мотив похож на просто GC-богатый участок). При этом стоит отметить, что E-value довольно большие(( Странно, но продолжаем работу.
Кое-как разобравшись с локальным запуском FIMO на кодомо, я проверила второй мотив AAARBCGCVSWHVCBNCCVTTNCCGVSMKTGAAGTGAT на тестовой выборке и выборке отрицательного контроля.
fimo --norc -motif AAARBCGCVSWHVCBNCCVTTNCCGVSMKTGAAGTGAT -thresh 0.001 meme.txt promotors.fasta
fimo --norc -motif AAARBCGCVSWHVCBNCCVTTNCCGVSMKTGAAGTGAT -thresh 0.001 meme.txt negative.fasta
Среди промоторов было найдено 468 последовательностей, подходящих под мотив; среди негативного контроля - 59 последовательностей. Выдача здесь: