Практикум 9

Подготовка данных

Для выполнения практикума выбрана Escherichia coli. Для нее были скачаны сборка и аннотация в формате GFF. С помощью веб-приложения Operon-mapper на основе fasta-файла с последовательностью генома и таблицы особенностей были определены координаты оперонов. Выдача содержала информацию о 2339 оперонах.

Используемые файлы:

- train.fa - содержит последовательности тренировочного набора

- test.fa - содержит последовательности тестового набора

- neg_contr.fa - содержит последовательности негативного контроля

MEME

Был использован локальный MEME со следующими параметрами: поиск в ДНК (-dna), число мотивов для поиска — 3 (-nmotifs 3), длина находки от 6 до 50 нуклеотидов (-minw 6 -maxw 50), остальное по умолчанию:

meme train.fa -dna -minw 6 -maxw 50 -nmotifs 3

Тектовая выдача MEME

Находка E-value
GCBYMADVKTTSCHKVGCCGBMGCGTHKVNRSTAVACTNCSCGCCYBT 6.9e+000
CGTKKMTGMVGRARRBWSCBRTTYDSRSHHTDCYSYCGCHST 1.4e+002
CATWACCCC 3.3e+002

Был взят первый мотив, потому что он имеет минимальное значение E-value.

Его паттерн (пункт "regular expression" в текстовой выдаче) - G[CG][GCT][CT][AC][AG][AGT][ACG][GT]T[TG][CG][CT][TAC][GT][CAG][GT][CA][CG][GA][GCT][AC][GT][CA][GC][TC][TAC][GT][CAG][ACGT][AG][CG]T[AG][GAC][AG]CT[ACGT]C[CG][CT][GC][CT][CG][CT][CGT]T.

Рис.1. LOGO 1-ого мотива.

Рис.2. LOGO 2-ого мотива.

Рис.3. LOGO 3-ого мотива.

FIMO

Для поиска мотива в положительном и отрицательном контролях были запущены следующие команды:

fimo --norc -motif GCBYMADVKTTSCHKVGCCGBMGCGTHKVNRSTAVACTNCSCGCCYBT -thresh 0.0125 ./meme_out/meme.txt test.fa
fimo --norc -motif GCBYMADVKTTSCHKVGCCGBMGCGTHKVNRSTAVACTNCSCGCCYBT -thresh 0.0125 ./meme_out/meme.txt neg_contr.fa

Поиск проводился только по одной цепи (--norc). Было получено 35 находок в 26 последовательностях из 50 в положительном контроле и 23 находки в 17 последовательностях из 50 в негативном контроле.