Для работы была выбрана бактерия Bacillus subtilis. Для нее была скачана сборка и файл с аннотацией. С помощью сервиса Operon-mapper был получен список оперонов.
По итогу работы скрипта Сергея Бушуева были получены следующие файлы:
- train.fa - содержит последовательности тренировочного набора
- test.fa - содержит последовательности тестового набора
- neg_contr.fa - содержит последовательности негативного контроля
Для проведения локального запуска МЕМЕ была использована команда:
meme train.fa -dna -minw 5 -maxw 50 -nmotifs 3
Было найдено 3 мотива:
- MOTIF GGKSMKKTTTTTVTTTKSNAWAAADGDDNA MEME-1 (E-value = 4.0e-011, width = 30, sites = 18, llr = 253)
- MOTIF AAAAGGAGG MEME-2 (E-value = 9.8e-005, width = 9, sites = 17, llr = 154)
- MOTIF YAYWDMMGNHCTCDKCCHTTWKTSKRDRRB MEME-3 (E-value = 1.8e-004, width = 30, sites = 13, llr = 200)
Рис. 1 LOGO 1-ого мотива
Рис. 2 LOGO 2-ого мотива
Рис. 3 LOGO 3-его мотива
Был взят первый мотив, потому что он имеет наибольшую длину и хорошее значение E-value.
Для поиска первого мотива в положительном и отрицательном контролях были запущены следующие команды:
fimo --norc -motif RCCBTTDTGCTAHAVTVCSCACCCYTTT -thresh 0.001 ./meme_out/meme.txt test.fa
fimo --norc -motif RCCBTTDTGCTAHAVTVCSCACCCYTTT -thresh 0.001 ./meme_out/meme.txt neg_contr.fa
В итоге было получено 20 находок в 15 последовательностях из 50 в положительном контроле.
В негативном контроле было найдено 4 находки в 3 последовательностях из 50.