Для выполнения задания был выбран геном бактерии Bacillus Subtilis. С помощью веб-сервиса Operon-mapper были получены координаты оперонов бактерии. Промотором было решено считать 100 нуклеотидов перед опероном. Далее я написал написал скрипт, который по ключевым словам в описании функции оперона находит 100 оперонов, содержащие гены домашнего хозяйства и записывает в файл 100 промоторных областей данных оперонов в файл материала обучения. Также скрипт записывает в файл тестовой выборки промоторные области всех оперонов (2307 последовательностей). В качестве негативного контроля были выбраны последовательности в 100 нуклеотидов после каждого промотора (2307 последовательностей).
Для поиска мотивов был использован локальный meme на сервере kodomo. Программа была запущена следующей командой:
meme house_keeping_promoters.txt -dna -mod zoops -nmotifs 3 -minw 6 -maxw 50
Программа нашла три мотива, и постороила их Logo, представленные на рисунках 1, 2, 3. С текстовой выдачей meme можно ознакомиться по ссылке. Только первый и второй мотивы имеют p-value меньше 0.05, с ними я и буду работать. Как видно из рисунка 4, первый мотив находится в 45-ти последовательностях, при этом 44-х из них в конце последовательности промотора (8-6 нуклеотидов от инициаторного кодона). Также по LOGO можно понять, что это высококонсеравтивный участок, а сама структура мотива aGGAGG очень сильно схожа с последовательностью Шайна — Дальгарно 1. P-value второго мотива равно 3.2e-008 и 10 из этих последовательностей находятся в -35 регионе, тем не менее визуально на данном Logo я не смог распознать эелементы -10 -35 консенсуса. С расположением мотивов в промоторной области можно ознакомиться по ссылке.
Сначала был произведен поиск мотива aGGAGG в тестовой выборке и выборке негативного контроля. Для этого на вход локальной версии fimo были переданы сама последовательность мотива, файл тестовой выборки, файл негативного контроля и выдача meme:
fimo --norc -motif AGGAGG -thresh 0.001 meme_out/meme.txt all_promoters.fasta
fimo --norc -motif AGGAGG -thresh 0.001 meme_out/meme.txt negative_cont.fasta
Результаты поиска занесены в таблицу 1.
В итоге в 1025 последовательностях тестовой выборки был найден сигнал, т.е. почти в половине всех промоторов. И только 200 сигналов было найдено в выборке негативного контроля.
Такое большое количество находок в тестовой выборке еще раз подтверждает, что первый мотив скорее всего является последовательностью Шайна-Дальгарно.Затем был произведен поиск второго мотива с помощью локального fimo:
fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.001 meme_out/meme.txt all_promoters.fasta
fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.001 meme_out/meme.txt negative_cont.fasta
Результаты выдачи заненсены в таблицу 2. Так как в выборке негативного контроля было найдено слишком много сигналов - 545, было я решил еще раз запустить fimo но с меньшим значением p-value.Было решено понизить порог p-value до 0.0001:
fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.0001 meme_out/meme.txt all_promoters.fasta
fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.0001 meme_out/meme.txt negative_cont.fasta
Результаты занесены в таблицу 3. При таких параметрах количество сигналов в выборке негативного контроля уменьшилось до 79, при этом было найдено 294 находок в
тестовой выборке. Тестовая выборка | Выборка негативного контроля | |
---|---|---|
Cигнал(+) | 1025 | 200 |
Cигнал(-) | 1282 | 2107 |
Тестовая выборка | Выборка негативного контроля | |
---|---|---|
Cигнал(+) | 1362 | 545 |
Cигнал(-) | 945 | 1762 |
Тестовая выборка | Выборка негативного контроля | |
---|---|---|
Cигнал(+) | 294 | 79 |
Cигнал(-) | 2013 | 2228 |