Для выполнения практикума выбрана Escherichia coli. Для нее были скачаны сборка и аннотация в формате GFF. С помощью веб-приложения Operon-mapper на основе fasta-файла с последовательностью генома и таблицы особенностей были определены координаты оперонов. Выдача содержала информацию о 2339 оперонах.
Используемые файлы:
- train.fa - содержит последовательности тренировочного набора
- test.fa - содержит последовательности тестового набора
- neg_contr.fa - содержит последовательности негативного контроля
Был использован локальный MEME со следующими параметрами: поиск в ДНК (-dna), число мотивов для поиска — 3 (-nmotifs 3), длина находки от 6 до 50 нуклеотидов (-minw 6 -maxw 50), остальное по умолчанию:
meme train.fa -dna -minw 6 -maxw 50 -nmotifs 3
Находка | E-value |
GCBYMADVKTTSCHKVGCCGBMGCGTHKVNRSTAVACTNCSCGCCYBT | 6.9e+000 |
CGTKKMTGMVGRARRBWSCBRTTYDSRSHHTDCYSYCGCHST | 1.4e+002 |
CATWACCCC | 3.3e+002 |
Был взят первый мотив, потому что он имеет минимальное значение E-value.
Его паттерн (пункт "regular expression" в текстовой выдаче) - G[CG][GCT][CT][AC][AG][AGT][ACG][GT]T[TG][CG][CT][TAC][GT][CAG][GT][CA][CG][GA][GCT][AC][GT][CA][GC][TC][TAC][GT][CAG][ACGT][AG][CG]T[AG][GAC][AG]CT[ACGT]C[CG][CT][GC][CT][CG][CT][CGT]T.
Рис.1. LOGO 1-ого мотива.
Рис.2. LOGO 2-ого мотива.
Рис.3. LOGO 3-ого мотива.
Для поиска мотива в положительном и отрицательном контролях были запущены следующие команды:
fimo --norc -motif GCBYMADVKTTSCHKVGCCGBMGCGTHKVNRSTAVACTNCSCGCCYBT -thresh 0.0125 ./meme_out/meme.txt test.fa
fimo --norc -motif GCBYMADVKTTSCHKVGCCGBMGCGTHKVNRSTAVACTNCSCGCCYBT -thresh 0.0125 ./meme_out/meme.txt neg_contr.fa
Поиск проводился только по одной цепи (--norc). Было получено 35 находок в 26 последовательностях из 50 в положительном контроле и 23 находки в 17 последовательностях из 50 в негативном контроле.