Практикум 9. Сигналы в геноме. Поиск de novo сигналов в ДНК

Подготовка данных

В рамках практикума был выбран геном Mycobacterium tuberculosis H37Rv . Используя файлы с ДНК-последовательностями (.fasta) и аннотациями (.gff), с помощью сервиса Operon-mapper был сформирован список оперонов. Область в 100 нуклеотидов перед стартом каждого оперона была определена как промоторная зона. Для подготовки файлов для обучения , тестирования и создания негативного контроля использовался скрипт, воссозданный старшими товарищами.

MEME

Три обнаруженных мотива являются достаточно надежными, так как обладают высокими значениями e-value. Одна из последовательностей содержит высокое содержание GC, что, вероятно, делает эту находку малозначимой. Для продолжения работы я решила сосредоточиться на мотиве 3.

Рис.1. LOGO 1 мотива

Рис.2. LOGO 2 мотива

Рис.3. LOGO 3 мотива

FIMO

Для поиска выбранного мотива в положительном и отрицательном контролях были использованы команды :

fimo --norc -motif TRWCWSWAGRCAKMAAGACHMGTTWTAWA -thresh 0.001 meme_out/meme.txt promotors.fasta

fimo --norc -motif TRWCWSWAGRCAKMAAGACHMGTTWTAWA -thresh 0.001 meme_out/meme.txt negative.fasta

В положительном контроле было найдено 80 находок, а в отрицательном 4 находки.