Сначала в референсном геноме были найдены опероны с помощью сервиса Operon_mapper. Далее результат и фаста-файл с геномом были обработаны с помощью скрипта за авторством Георгия Муравьева(студент ФББ МГУ на момент написания отчета).
Результатом работы скрипта стали три файла: обучающая выборка(по генам домашнего хозяйства), промоторы(тестовая выборка) и негативный контроль(случайные последовательности длиной 100 bp).
Далее был запущен MEME с kodomo(для поиска мотивов). Команда: meme script_results/housekeeping.fasta -dna -nmotifs 3 -minw 6 . Таким образом, ищу три лучших мотива в обучающей выборке. Длина искомых мотивов начинается от 6, максимальная длина дефолтная – 50.
Было найдено три мотива, представленных здесь. Работать дальше буду со вторым мотивом(первый напоминает просто GC-богатый участок, хотя он и единственный с E-value меньше 0.05, хотя и есть A с высоким IC, третий длинный).
Для поиска второго мотива в оперонах бактерии на kodomo был запущен FIMO. Команды:
fimo --norc -motif GCKGCTDBNNMGYCGWSTSSAWWTTCGYC meme_out_1/meme.txt script_results/promotors.fasta
fimo --norc -motif GCKGCTDBNNMGYCGWSTSSAWWTTCGYC meme_out_1/meme.txt script_results/negative.fasta
Первая команда – поиск в промоторах, вторая – в негативном контроле.
Если сравнивать результат поиска в промоторах и результат поиска в негативном контроле, то видна разница: 68 обнаружений в промоторах и 3 обнаружения в негативном контроле. Возможно, находок мало так как порога на p-value равен 0.0001. Получаем, что этот мотив действительно характерен для промоторов исследуемой бактерии. Но, нужно отметить, что ни один из трех найденных мотивов не был похож на стандартные консенсусы последовательностей Шайна-Дальгарно, -10 и -35. Действительно ли промотор Teredinibacter purpureus устрое иначе, к сожалению, точнее по этим данным сказать нельзя.
Приведу также и tsv, получвшийся после работы FIMO: промоторы и отрицательный контроль
Вдобавок еще посмотрел лучшие 10 мотивов, который нашел MEME. Там тоже с уверенностью классических консенсусов не нашел.