Практикум 9

Обзор:

В ходе данного практикума был осуществлен поиск сигналов (последовательность Shine-Dalgarno) в промоторных областях генома бактерии Aquibium oceanicum.

Подготовка материала для MEME

Геномная последовательность Aquibium oceanicum была загружена. Также был взят файл аннотации этой хромосомы .gff (использована ссылка из миниобзора с первого курса). Затем был использован Operon-mapper для предсказания координат оперонов в геноме. На вход программа получила оба файла. Был установлен параметр для поиска только оперонов. Всего было предсказано 2811 оперонов.


Рис. 1. Диалоговое окно для использования Operon-mapper

После долгих 7 минут Operon-mapper что-то предсказал: выдал список оперонов.

Рис. 2. Выдача Operon-mapper


На основе полученных результатов из последовательности хромосомы были вырезаны части промоторных участков длиной в 40 нуклеотидов (прямо перед старт-кодоном), так как последовательность Шайна-Дальгарно находится на расстоянии примерно 10 нуклеотидов. 400 полученных последовательностей были использованы в качестве обучающей выборки, а 600 в качестве тестовой. Для отрицательного контроля были получено ещё 600 последовательностей межгенных промежутков (также длиной 40 нуклеотидов). Все последовательности выбирались случайно и не пересекаются. Кстати, сначала я забыл, что надо смотреть на какой цепи находится оперон, но потом исправил этот момент! Данные операции были выполнены с помощью скрипта.

MEME

Далее был произведен поиск сигналов с помощью MEME на выборке для обучения. Я искал 3 сигнала (на всякий случай) в диапазоне длин от 5 до 8, так как консенсусная последовательность Шайна-Дальгарно длиной 6 нуклеотидов.
После безрезультатного и унылого ожидания работы сайта я решил запустить MEME на kodomo:

meme train_promoters.fasta -dna -nmotifs 3 -minw 5 -maxw 8

Рис. 3. MEME "размышляет" над моей задачей

Вот отчет программы.
На Рис. 4. представлены найденные сигналы. Только у одного из них приемлимый E-value (статистически значимая находка), на остальные не смотрим (они пытаются скрыться от нашего взора будучи полупрозрачными). На мой взгляд, эта находка весьма похожа на последовательность Шайна-Дальгарно.
Вот консенсусная последовательность E.coli: 5'-AGGAGG-3'
Сходство очевидно.

Рис. 4. Результаты поиска сигналов программой MEME в моей выборке.

FIMO

Затем был проведен поиск обнаруженного сигнала на тестовой и контрольной выборке программой FIMO (справку посмотрел тут):

fimo --o fimo_out_test --motif ADGGAGRA --thresh 0.001 meme_out/meme.txt test_promoters.fasta
fimo --o fimo_out_control --motif ADGGAGRA --thresh 0.001 meme_out/meme.txt negative_control.fasta

Вот отчет программы для тестовой выборки, а вот отчет программы для контрольной.
Итого: В тестовой выборке сигнал был обнаружен в 122 последовательностях из 600 (20%), а в контрольной в 44 из 600 (4%).
Применив точный тест Фишера (скрипт на R), получаем, что различие в представленности данного сигнала в промоторных областях и межгенных областях Aquibium oceanicum статистически значимо
(p-value < 0.001; OR = 3.22 95% CI [2.21, 4.76])
Итак, обнаруженный сигнал похож на последовательность Шайна-Дальгарно E.coli по своей последовательности (звучит прекрасно), а также статистически значимо встречается чаще в промоторных областях чем в межгенных промежутках. Так что можно предположить, что это действительно последовательность Шайна-Дальгарно Aquibium oceanicum.