Поиск сигнала посадки σ-субъединицы РНК-полимеразы

1. Подготовка данных

Была выбрана бактерия Escherichia coli, конкретнее - штамм K-12 подштамма MG1655. Для нее были скачаны последовательность хромосомы и аннотация в формате GFF. Затем с помощью сервиса Operon-mapper были определены координаты оперонов (Cкачать файл) на основе fasta-файла файла с последовательностью генома и таблицы особенностей. Всего была получена информация о 4445 оперонах (это примерно соответствует числу генов E.coli).

Далее с помощью скрипта (автормо которого является Георгий Муравьев; Скачать скрипт) были подготовлены следующие данные:

  1. Материал обучения - это промоторы генов домашнего хозяйства housekeeping.fasta, чтобы найти такие гены, был использован поиск по ключевым словам в колонке Function в файле выдачи Operon-mapper (АТФ-синтаза, транскрипция, рибосомальный, полимераза, транскрипция, трансляция). В качестве промотора выбиралась область 100 нуклеотидов (нт) перед началом оперона.
  2. Материал тестирования promoters.fasta — промоторы всех оперонов
  3. Негативный контроль negative.fasta — участки длиной 100 нт, вырезанные из генома случайным образом

2. Запуск MEME

Для поиска сигналов в последовательностях был использован локальный MEME со следующими параметрами:

поиск в ДНК (-dna)
число мотивов для поиска — 3 (-nmotifs 3)
длина находки от 6 до 50 нуклеотидов (-minw 6 -maxw 50)
остальное по умолчанию

meme housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50
Скачать выдачу MEME
Находка E-value
GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTS 8.9e-009
TAGCABTACSCCYKCGTGAHDCCACCTTYYAKCGWDTVAGDGSBTGCCA 1.9e-002
WTSGACRCCTYTTTCWSTTT 1.3e-001
Fig.1 LOGO первой находки.
Fig.2 LOGO второй находки.
Fig.3 LOGO третьей находки.

Был выбран мотив c наименьшим E-value (первый):

GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTS
Его паттерн (пункт "regular expression" в текстовой выдаче):
GC[AG][CT][AC][TAC][TG][AGT]T[GT][CT][GT][CA][TAG]T[CT][CG][CAT][GA][CG][CT]TCG[AC]CG[AT][CT][CT][TC]G[TA][TC][GC]G[CG][GT][TC]T[GC]

3. Запуск FIMO

Для поиска мотива в положительном и отрицательном контроле были запущены следующие команды:

fimo --norc -motif GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTS -thresh 0.0125 ./meme_out/meme.txt promoters.fasta
fimo --norc -motif GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTS -thresh 0.0125 ./meme_out/meme.txt negative.fasta

Поиск проводился только по одной цепи (--norc), сначала порог на p-value (-thresh) был взят 0.01, получилось 3368 находок (fimo_001.tsv) в материале тестирования. Это маловато, ведь всего в нем 4445 промоторных последовательностей, плюс не все сайты посадки нашлись. С порогом на p-value 0.05 было найдено 15285 находок (fimo_005.tsv), это избыточно. Таким образом был взят, наилучший вариант порога 0.0125 – 4175 находок (fimo_00125.tsv), примерно столько же, сколько и промоторов.

В негативном контроле с теми же параметрами было найдено всего 449 последовательностей (fimo_00125_negative.tsv)

Порог E-value Ссылка на файл выдачи FIMO
0.01 Скачать
0.05 Скачать
0.0125 Скачать