Была выбрана бактерия Escherichia coli, конкретнее - штамм K-12 подштамма MG1655. Для нее были скачаны последовательность хромосомы и аннотация в формате GFF. Затем с помощью сервиса Operon-mapper были определены координаты оперонов (Cкачать файл) на основе fasta-файла файла с последовательностью генома и таблицы особенностей. Всего была получена информация о 4445 оперонах (это примерно соответствует числу генов E.coli).
Далее с помощью скрипта (автормо которого является Георгий Муравьев; Скачать скрипт) были подготовлены следующие данные:
Для поиска сигналов в последовательностях был использован локальный MEME со следующими параметрами:
поиск в ДНК (-dna)
число мотивов для поиска — 3 (-nmotifs 3)
длина находки от 6 до 50 нуклеотидов (-minw 6 -maxw 50)остальное по умолчанию
meme housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50Скачать выдачу MEME
Находка | E-value |
---|---|
GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTS | 8.9e-009 |
TAGCABTACSCCYKCGTGAHDCCACCTTYYAKCGWDTVAGDGSBTGCCA | 1.9e-002 |
WTSGACRCCTYTTTCWSTTT | 1.3e-001 |
Был выбран мотив c наименьшим E-value (первый):
GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTSЕго паттерн (пункт "regular expression" в текстовой выдаче):
GC[AG][CT][AC][TAC][TG][AGT]T[GT][CT][GT][CA][TAG]T[CT][CG][CAT][GA][CG][CT]TCG[AC]CG[AT][CT][CT][TC]G[TA][TC][GC]G[CG][GT][TC]T[GC]
Для поиска мотива в положительном и отрицательном контроле были запущены следующие команды:
fimo --norc -motif GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTS -thresh 0.0125 ./meme_out/meme.txt promoters.fastaПоиск проводился только по одной цепи (--norc), сначала порог на p-value (-thresh) был взят 0.01, получилось 3368 находок (fimo_001.tsv) в материале тестирования. Это маловато, ведь всего в нем 4445 промоторных последовательностей, плюс не все сайты посадки нашлись. С порогом на p-value 0.05 было найдено 15285 находок (fimo_005.tsv), это избыточно. Таким образом был взят, наилучший вариант порога 0.0125 – 4175 находок (fimo_00125.tsv), примерно столько же, сколько и промоторов.
В негативном контроле с теми же параметрами было найдено всего 449 последовательностей (fimo_00125_negative.tsv)
Порог E-value | Ссылка на файл выдачи FIMO |
---|---|
0.01 | Скачать |
0.05 | Скачать |
0.0125 | Скачать |