Поиск de novo сигналов в ДНК


Выбор бактерии и подготовка данных

Я решила выбрать бактерию Mycobacterium tuberculosis. Она вызывает туберкулёз у человека в 92% случаев.

Скачала два файла: FASTA (файл с последовательностью хромосомы) и GFF (аннотация). Загрузила их в Operon Mapper, чтобы получить список оперонов. По ключевым словам были отобраны гены домашнего хозяйства. В качестве отрицательного контроля были использованы случайные последовательности длиной 100 нуклеотидов (той же длины, что и промоторы).

Скрипт для получения выборок взяла у нашего старшего товарища Георгия Муравьёва

Получила 3 файла:

Запуск MEME

Попробовала воспользоваться локальной версией на kodomo и сервисом MEME-suit.

Поиск мотивов на одной цепи:

meme housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50

Описание параметров:

Выдача meme: текстовый формат, html-формат

MEME нашёл три мотива, LOGO и характеристики для которых представлены ниже:

motif1
Рис 1. Motif 1: CRRCGACGAKGBVGWGSSMAGCGATGAGGAGVAGMDSSGC, E-value = 4.0e-010, width = 40
motif2
Рис 2. Motif 2: AKWATHWADDRKYWDATGTWMWYKWAWKHHTWWSRSGWYASGMTGC, E-value = 1.1e+001, width = 46
motif3
Рис 3. Motif 3: TCTTGCCTTTDACWTCBAYCA, E-value = 2.4e+001, width = 21

Меня, конечно, немного смущает выское GC содержание в первом мотиве, но у него наименьший и в целом адекватный e-value, поэтому сосредоточусь на нём.

Поиск сигнала в материале для тестирования с помощью FIMO

Я проверила первый мотив CRRCGACGAKGBVGWGSSMAGCGATGAGGAGVAGMDSSGC на материвле тестирования и выборке отрицательного контроля, запустив консольную версию FIMO на kodomo:

fimo -motif CRRCGACGAKGBVGWGSSMAGCGATGAGGAGVAGMDSSGC --norc --thresh 0.001 meme_out/meme.txt promotors.fasta

fimo -motif CRRCGACGAKGBVGWGSSMAGCGATGAGGAGVAGMDSSGC --norc --thresh 0.001 --o fimo2_out meme_out/meme.txt negative.fasta

Среди промоторов было найдено 2 315 последовательностей, подходящих под мотив с p-value меньше 0.001, а среди выборки отрицательного контроля – 263 последовательности.