СИГНАЛЫ И МОТИВЫ I

PWM D. Melanogaster [-3;4]

Файл

Поиск сайтов регуляции разрывной транскрипции sgmRNA

Мой выбор пал на Bat coronavirus BM48-31/BGR/2008 (NC_014470.1).
У него 9 генов - первый кодирует полипептид, а остальные 8 - это те самые поздние гены.
В приведенной статье нашелся консервативный участок СТАААС (Core Sequence, CS), фланкированный ещё несколькими менее консервативными нуклеотидами. Всё это вместе - Transcription-Regulating Sequenses (-Leader и -Body).
Итак, вот попытки обнаружить эти TRS с помощью МЕМЕ:

1.
Для лидерной последовательности взяла всё от начала последовательности до старт-кодона, получилось 190 баз. Для поздних генов длины upstream-областей по 101 базе.

Настройки:

Motif Site Distribution    ZOOPS: Zero or one site per sequence 
Objective Function    E-value of product of p-values
Starting Point Function    E-value of product of p-values
Site Strand Handling    Sites must be on the given strand 
Maximum Number of Motifs    3
Motif E-value Threshold    no limit
Minimum Motif Width    6
Maximum Motif Width    20
Minimum Sites per Motif    2
Maximum Sites per Motif    9

Один достойный кандидат на мотив:

Скрин выдачи МЕМЕ
Рис. 1. Выдача №1.

Его расположение на некоторых из исходных последовательностей (красный):

визуальная интерпретация местоположения мотива в последовательностях
Рис. 2. Выдача №1.

В 5 из 9 последовательностей с первого раза обнаружился "хороший" мотив - круто! Сразу бросилось в глаза, что его начало совпадает с 5ю из 6ти нуклеотидов CS из статьи. То есть, возможно, 4 оставшихся основания найденного мотива - это 3'TRS-B.

2.
После нескольких неудачных попыток решила переставить Motif Site Distribution на OOPS: Exactly one site per sequence; убрала 14 нуклеотидов с 5' и добавила 6 с 3' концов для первой последовательности; Minimum Motif Width снизила до 3 - всё это ради того чтобы обнаружить хоть что-то похожее на TRS-L. Поскольку на этот раз программа была обязана выдать хоть какие-то варианты для каждой последовательности, тот же самый мотив, который нашелся в 1 раз, детектировался и теперь, но с большим e-value в силу отличий в его позициях в 4 последовательностях, в которых в прошлый раз ничего найдено не было. Кстати, MEME не считает e-value > 0,05 достойным внимания, но в данном случае оно, всё-таки, прилично меньше единицы, да и расположение мотивов в последовательностях близкое к старт-кодону, так что, вроде, похоже на правду.
Ещё пробовала оставлять первую последовательность с изначальной длиной, но тоже обязательно запрашивала наличие мотива, тогда находился похожий на этот, но дальше от старт-кодона. Я решила, что лучше ближний.

Скрин выдачи МЕМЕ
Рис. 3. Выдача №2.
визуальная интерпретация местоположения мотива в последовательностях
Рис. 4. Выдача №2.