Для анализа я выбрал бактерию Escherichia coli, так как она является модельным объектом, базовой бактерией. Геном был взят из сервиса NCBI Genome, ссылка на данную сборку генома: GCF_000008865.2. Ссылка на геном в формате fasta: ссылка.
В сервисе Operon-mapper был получен список оперонов для E. coli. ссылка на полученный список.
Для составления материала обучения я воспользовался скриптом Георгия. Скрипт принимает на вход последовательность генома в формате fasta и таблицу operon mapper, выдавая три файла с обучающей, тестовой и негативной выборкой.
Материал обучения в виде последовательностей, которые являются генами домашнего хозяйства - ссылка.
Тестовая выборка из оперонов - ссылка.
Материал негативного контроля из случайно взятых последовательностей - ссылка.
Полученная выборка обучения была подана на вход локальному meme на сервере kodomo.
meme learn.fa -dna -nmotifs 3 -minw 6 -text > meme.txt
Полученный вывод в текстовом формате: ссылка. Среди трех полученных мотивов выбран мотив с минимальным значением E-value.
Полученный мотив: CWGGCGGCKTT, e-value = 1.8e+001
Кроме него были найдены мотивы с данными E-value:
GCCAKAAAAABGGCG, e-value = 5.6e+002
GGACNTCGCGTBDTBCGHVCAGHRMCAMC, e-value = 1.1e+002
Решено было проверить выбранный первый мотив на тестовой выборке и негативном контроле
fimo --norc -motif CWGGCGGCKTT -t meme.txt promotors.fasta
fimo --norc -motif CWGGCGGCKTT -t meme.txt negative.fasta
Полученные результаты для тестовой выборки и негативной выборки
На тестовой выборке обнаружилось 750 последовательностей из 5485. На негативной выборке 60 из 318.
Я считаю данный результат неудовлетворительным, так как процент находок для негативной выборки оказался велик. Это я связываю с тем, что последовательности были взяты из случайных мест генома и могли включать в себя и промоторы тоже.