Практикум 7

Подготовка данных

Для поиска сигналов и построения их консунсусов я взял референсный геном сенной палочки (Bacillus subtilis) subsp. subtilis str. 168, он доступен по ссылке и файл с разметкой ORF в геноме в gff формате. Файлы были загружены в сервис Operon-mapper для получения предсказанных координат оперонов (файл).

Далее при помощи скрипта Петра Милейко, который ищет по ключевым словам в описании функции оперона 100 оперонов, содержащих гены домашнего хозяйства и записывает промоторные области длиной 100 нуклеотидов до точки старта данных оперонов в файл материала обучения. Также скрипт записывает в файл тестовой выборки промоторные области всех оперонов (2289 последовательностей). В качестве негативного контроля были выбраны последовательности в 100 нуклеотидов после каждого промотора (2289 последовательностей).

Применение MEME

Для поиска сигналов в выбранных промоторных областях обучающей выборки я запустил программу MEME локально на сервере kodomo. Команда запуска:

Объяснение параметров запуска: файл поиска - house_keeping_promoters.txt, алфавит - ДНК, zoops - аббревиатура, обозначающая режим, когда сигнал ожидается 0 или 1 раз на одну последовательность.Показывается 3 лучших мотива, длина мотива от 6 до 50 букв.

Текстовой выдачей программы является файл. Также программа создала автоматический html-отчет. Было найдено 2 значимых сигнала в исследуемом регионе, их консенсусы: AGGAGG (E-value = 1.9e-016), BCTYYTTTYTTKTNW (E-value = 3.2e-008). Так как параметр выдачи был "три лучших находки", также был показан мотив MYCRRCHRMWTTDCYTTRCGR, но его E-value = 8.2e+000, это намного выше порога значимости 0,05. LOGO трех мотивов приведены ниже:

logo1
Рисунок 1. LOGO мотива 1.
logo2
Рисунок 2. LOGO мотива 2.
logo3
Рисунок 3. LOGO мотива 3.

В консенсусе первого мотива узнается последовательность Шайн-Дальгарно. При анализе второго мотива я посмотрел на его координаты в данном на вход программе предоперонном участке. Встречались значения координаты начала мотива около 30 и около 65 буквы в фрагменте. Как раз на координате 65, я ожидаю увидеть -35 сайт посадки промотора. В LOGO в позициях 10-15 можно разглядеть следы распознавания программой этого сайта (TTGACA), однако, я думаю, его мотив вероятнее было бы уловить на большей выборке и при параметрах meme -minw 6 -maxw 6. Предшествующая ему часть этого мотива - фрагмент UP Element, который различается у промоторов разных типов, однако обычно является A, T -богатым.

Поиск сигналов в последовательностях тестовой выборки с помощью Fimo

Для поиска сигналов в выбранных промоторных областях тестовой выборки и отрицательного контроля я запустил программу FIMO локально на сервере kodomo. Команды для запуска были идентичными:

Были получены следующие результаты:

Результаты поиска мотива 1

Тестовая выборка Негативный контроль
Сигнал + 1027 196
Сигнал - 1262 2093
Результаты поиска мотива 2 с порогом значимости 0,001.
Тестовая выборка Негативный контроль
Сигнал + 1353 537
Сигнал - 936 1752
По негативному контролю видно, что порог слишком высокий (свыше 500 неспецифичных находок мотива в негативном контроле). Проведем поиск с повышением чувствительности порога в 10 раз.

Результаты поиска мотива 2 с порогом значимости 0,0001:

Тестовая выборка Негативный контроль
Сигнал + 294 76
Сигнал - 1995 2213