Практикум 9

Резюме: В ходе работы над данным практикумом был произведен поиск сигналов в промоторных областях генома моей бактерии - Streptococcus thermophilus.


1. Подготовка данных

Последовательность хромосомы Streptococcus thermophilus была скачена из GenBank (LR822015.1). Далее с помощью сервиса Operon-mapper были получены координаты оперонов. На их основе из последовательности хромосомы были вырезаны промоторные участки (300 для обучающей выборки, 500 для тестовой). Для отрицательного контроля были получено 500 последовательностей межгенных промежутков.




2. MEME

Далее был произведен поиск сигналов с помощью локальной версии MEME, команда:

meme promoters_300.fasta -dna -nmotifs 4 -minw 5 -maxw 8

Ищем 4 мотива с длинами в диапозоне [5,8]. Насколько я понимаю, в этом диапозоне должны находиться последовательность Шайна-Дальгарно и -10 и -35-сайты посадки сигма-субъединицы РНК-полимеразы. Результаты поиска представлены на Рис. 1 (отчет программы).

Рис. 1. Результаты поиска мотивов программой meme. Только один из мотивов имеет адекватное значение E-value, то есть является статистически значимой находкой (первый), остальные рассматривать не будем (показаны transparent). Хочется верить, что первая находка - это последовательность Шайна-Дальгарно, по крайней мере, она пурин-богатая и достаточно похожа на классическую SD у грамм+ бактерий - AGGAGG

3. FIMO

Далее полученная находка (полагаю, что это последовательность Шайна-Дальгарно) была проверена на тестовой и контрольной выборке с помощью программы fimo, команды:

fimo -thresh 0.001 meme_out/meme.txt promoters_500.fasta
fimo -thresh 0.001 meme_out/meme.txt intergenic_500.fasta

В тестовой выборке мотив нашелся в 325 (65%) промоторных последовательностях (отчет), в контрольной выборке мотив нашелся в 226 (45%) последовательностях межгенных промежутков (отчет). Таким образом, в тестовой выборке мотив находится чаще, чем в тестовой, p-value = 4.07e-10, OR = 2.25 (95% CI = [1.73, 2.93]) - посчитал в R, точным тестом Фишера. Это подтверждает, что находка действительно может быть последовательностью Шайна-Дальгарно (так как она достоверно чаще в промоторных областях, чем в межгенных промежутках).