Подготовка данных

Для выполнения практикума был выбран геном Mycobacterium tuberculosis H37Rv. На основе файлов с последовательностью (*.fasta) и аннотацией (*.gff) с использованием сервиса Operon-mapper был получен список оперонов. Промотором считается область 100 нуклеотидов перед началом оперона. Был использован скрипт однокурсника Георгия Муравьева для получения файла обучения, тестирования и негативного контроля

Запуск Meme

Найденные 3 мотива довольно надежны т.к. имеют высокие e-value. Одна из последовательностей имеет богатый GC состав и вряд ли эта находка имеет смысл. Для дальнейшей работы я выбрал мотив 3.

Письма мастера дзен

Рис1. LOGO находки 1

Письма мастера дзен

Рис2. LOGO находки 2

Письма мастера дзен

Рис3. LOGO находки 3

Поиск сигнала в материале для тестирования с помощью FIMO.

Для поиска выбранного мотива в положительном и отрицательном контролях были использованы команды :

fimo --norc -motif TRWCWSWAGRCAKMAAGACHMGTTWTAWA -thresh 0.001 meme_out/meme.txt promotors.fasta

fimo --norc -motif TRWCWSWAGRCAKMAAGACHMGTTWTAWA -thresh 0.001 meme_out/meme.txt negative.fasta

В положительном контроле было найдено 80 находок, а в отрицательном 4 находки.