Поиск de novo сигналов в ДНК

Подготовка данных

Для данного практикума я выбрал чумную палочку (Yersinia pestis), ее геном (в формате fasta) и аннотацию (в формате gff) к нему скачал с NCBI (сборка ASM22297v1). На основе этих файлов при помощи сервиса Operon-mapper получил список оперонов. Он и геном бактерии подавались на вход скрипту Георгия Муравьева, который генерировал три выборки: для обучения (гены домашнего хозяйства), тестирования и негативного контроля. Промотором этот скрипт считает область в 100 нуклеотидов перед началом оперона.


Запуск MEME

Далее запускал программу MEME на kodomo, используя следующую команду. Программа сгенерировала три лого и HTML-отчет, включайщий E value находок.

meme housekeeping.fasta -dna -nmotifs 3 -minw 6

Программе удалось найти три мотива: LOGO-1 (рис. 1, сверху), LOGO-2 (рис. 1, посередине), LOGO-3 (рис. 1, снизу). Их E value равен 7.3e-003, 1.2e+002 и 4.5e+002 соответственно, что довольно высоко. Поскольку первый мотив обладает наименьшим E value, дальше будем работать именно с ним.

Logos from the MEME output
Рис. 1. Выдача программы MEME. Сверху LOGO-1 (E value = 7.3e-003), LOGO-2 (E value = 1.2e+002) и LOGO-3 (E value = 4.5e+002).

Поиск сигнала в материале для тестирования с помощью FIMO

Для поиска выбраного мотива в положительном (promotors.fasta, см. раздел «Подготовка данных») и отрицательном (negative.fasta, см. раздел «Подготовка данных») контролях была запущена программа FIMO.

fimo --norc -motif CMVMDDMRDBBTBAAGKAYRRMRGGTAWA -thresh 0.001 ./meme_out/meme.txt ./promotors.fasta

fimo --norc -motif CMVMDDMRDBBTBAAGKAYRRMRGGTAWA -thresh 0.001 ./meme_out/meme.txt ./negative.fasta

В результате работы программы получил две таблицы c находками: мотив был найден в 387 промоторах положительного контроля и 17 находках негативного. Стоит отметить, что при разных порогах по E value число находок очень сильно варьировало, но хотелось минимизировать неспецифические находки. Так, при E value 0.01 их числа значительно возрастали, а при E value 0.0001 числа практически не менялись.