Для выполнения задания был выбран геном бактерии Bacillus Subtilis. С помощью веб-сервиса Operon-mapper были получены координаты оперонов бактерии. Промотором было решено считать 100 нуклеотидов перед опероном. Далее я написал написал скрипт, который по ключевым словам в описании функции оперона находит 100 оперонов, содержащие гены домашнего хозяйства и записывает в файл 100 промоторных областей данных оперонов в файл материала обучения. Также скрипт записывает в файл тестовой выборки промоторные области всех оперонов (2307 последовательностей). В качестве негативного контроля были выбраны последовательности в 100 нуклеотидов после каждого промотора (2307 последовательностей).
Сначала был произведен поиск мотива aGGAGG в тестовой выборке и выборке негативного контроля. Для этого на вход локальной версии fimo были переданы сама последовательность мотива, файл тестовой выборки, файл негативного контроля и выдача meme:
fimo --norc -motif AGGAGG -thresh 0.001 meme_out/meme.txt all_promoters.fasta
fimo --norc -motif AGGAGG -thresh 0.001 meme_out/meme.txt negative_cont.fasta
Результаты поиска занесены в таблицу 1.
В итоге в 1025 последовательностях тестовой выборки был найден сигнал, т.е. почти в половине всех промоторов. И только 200 сигналов было найдено в выборке негативного контроля.
Такое большое количество находок в тестовой выборке еще раз подтверждает, что первый мотив скорее всего является последовательностью Шайна-Дальгарно.Затем был произведен поиск второго мотива с помощью локального fimo:
fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.001 meme_out/meme.txt all_promoters.fasta
fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.001 meme_out/meme.txt negative_cont.fasta
Результаты выдачи заненсены в таблицу 2. Так как в выборке негативного контроля было найдено слишком много сигналов - 545, было я решил еще раз запустить fimo но с меньшим значением p-value.Было решено понизить порог p-value до 0.0001:
fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.0001 meme_out/meme.txt all_promoters.fasta
fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.0001 meme_out/meme.txt negative_cont.fasta
Результаты занесены в таблицу 3. При таких параметрах количество сигналов в выборке негативного контроля уменьшилось до 79, при этом было найдено 294 находок в
тестовой выборке. Тестовая выборка | Выборка негативного контроля | |
---|---|---|
Cигнал(+) | 1025 | 200 |
Cигнал(-) | 1282 | 2107 |
Тестовая выборка | Выборка негативного контроля | |
---|---|---|
Cигнал(+) | 1362 | 545 |
Cигнал(-) | 945 | 1762 |
Тестовая выборка | Выборка негативного контроля | |
---|---|---|
Cигнал(+) | 294 | 79 |
Cигнал(-) | 2013 | 2228 |