Практикум 9.Сигналы в геноме.Сигналы в геноме. Поиск de novo сигналов в ДНК

Подготовка данных

Я решила взять бактерию Clostridium Botulinum, обосновывая свой выбор, что эта бактерия производит ботулинический токсин, самый сильный из известных токсинов и предоставляет интнрес для изучения
NCBI RefSeq assembly: GCF_000063585.1
Submitted GenBank assembly: GCA_000063585.1
Taxon: Clostridium botulinum A str. ATCC 3502
Используя скаченные файлы с ДНК-последовательностями (.fasta) и аннотациями (.gff) был сформирован список оперонов(используя Operon-mapper). Промотором будем считать 100 нуклеотидов до оперона. Далее использовался скрипт старших курсов
Получаем три файла:
housekeeping.fasta обучающая выборка
promotors.fastaтестовая выборка
negative.fastaнегативный контроль

MEME

Пользовалась MEME-suit(параметры :1)site distribution-0 или 2) number of motifs- по умолчание 3 3)as the background model- 0-order 4)минимальная-максимальная длина мотива 6-50
Выдача meme txt Выдача meme html
МЕМЕ нашел три мотива, logo которых представлены ниже:

фото
img 1. Мотив 1: MOTIF TCCTCCMY, width = 8, E-value = 4.6e-055

фото
img 2. Мотив 2: MOTIF GGAGGW, width = 6, E-value = 1.6e-036

фото
img 3. Мотив 3: MOTIF YTYYCCTCCT, width = 10, E-value = 3.9e-028
Выбрала мотив 2 c наименьшим E-value: GGAGGW (хоть и смущет по длине)

FIMO

Для поиска мотива в положительном и отрицательном контроле были запущены следующие команды(С классическим порогом p-value до 0.05, поиск только по одной цепи (--norc)):
Промотеры:
fimo --norc -motif GGAGGW -thresh 0.0125 ./meme_out/meme.txt promoters.fasta
Среди промоутеров было найдено 10198 находок
Промоторы: в формате tsv Промоторы: в формате html
Отрицательный контроль:
fimo --norc -motif GGAGGW -thresh 0.05 -o fimo2_out ./meme_out/meme.txt negative.fasta
Среди отрицательного контроля - 857 последовательностей
Промоторы: в формате tsv Промоторы: в формате html