Поиск de novo сигналов в ДНК

Бактерия:Corynebacterium ureicelerivorans

NCBI RefSeq assembly: GCF_000747315.1

FASTA файл последовательности генома; GFF файл c аннотациями

Первым этапом рассмотрим поиск оперонов. Для этого воспользуемся вебсервисом - Operon-mapper. Использовались и FASTA и GFF файлы. Результатом его работы получили файл с координатами предсказанных оперонов (1140 участков). Полученный список оперонов также несет информацию о их функционале. Так воспользовавшись скриптом коллеги по цеху - Муравьева Георгия, разделили опероны по группам: обучающую (консервативные) - housekeeping.fasta, тестовая - promotors.fasta и отрицательный контроль (произвольные последовательности из нашего генома) - negative.fasta.

Поиск с МЕМЕ

Сначала воспользуемся командой на kodomo: meme housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50, в которой

На выдаче получаем файлы:

Поиск посредством FIMO

Из полученных мотивов больше всего приглянулся второй - TGCTGGTTTAGTTCCTGTGCTTYAGACATGCTGTCGAGTTTGCA, проверим на нем тестовую сборку и отрицательный контроль.

Выдача контрольной группы (--norc - поиск по одной цепи, -thresh - порог на p-value):

Выдача отрицательного контроля:

Рефлексия: