Поиск сигналов. Теория
1. MEME
MEME - программа для поиска мотивов в группе последовательностей. Мотивы в MEME представлены в виде матрицы, составленной из
вероятнотей нахождения каждой буквы в конкретной позиции(position-dependent letter-probability matrices или PWM).
Из файла с двумя участками ДНК длиной 21 п.н., с которыми связывается транскрипционный фактор YxeR с помощью программы
MEME был найден мотив связывания. Логотип мотива представлен на рис.1. Высотва букв в LOGO отражает относительную частоту встречаемости данной буквы в данной позиции.
В табл.1 представлены основные презультаты выдачи MEME.
 |
Рис. 1. LOGO сайта связывания YxeR (MEME) |
Таблица 1.Результаты выдачи MEME
E-value |
6.8e-002 |
Длина |
7 |
PWM |
pwm.txt |
2. tomtom
tomtom сравнивает заданный мотив с известными мотивами в базе данных. Найденные в указанной базе данных мотивы представляются в виде
списка, отсортированного по значению p-value.
На основе исходного мотива в прокариотической базе данных RegTransBase было найдено 5 находок с E-value меньше 3. Параметры лучшей находки представлены в табл.2.
Таблица 2.Параметры лучшей находки (tomtom)
Название ТФ |
RbsR_Streptomycetaceae_Rubrobacteraceae |
E-value |
1.48e+00 |
Перекрытие |
7 |
PWM |
pwm.txt |
 |
Рис.2. Выравнивание исходного мотива (внизу) и наиболее похожего в в БД RegTransBase (RbsR_Streptomycetaceae_Rubrobacteraceae) |
Рассматриваемые мотивы не очент похожи друг на друга: найденный мотив длиннее исходного на 13 п.н., E-value выравнивая больше единицы. На LOGO все позиции исходного мотива
совпадают с соответствующей частью найденного, кроме 3-й позиции (вместо G в найденной последовательности расположен T).
3. FIMO
FIMO (Find Individual Motif Occurrences)- программа, которая ищет заданный мотив в последовательности. Исходный мотив искался в БД Upstream Sequences: prokaryotic,
геном Lactococcus lactis subsp. lactis Il1403. Т.к. мы ищем сайт связывания транскрипционного фактора, искать мотив нужно в upstream region,
т.к. чаще всего именно там происходит регуляция экспрессии гена. Список координат находок и их p-value представлены в таблице 3.
Координаты генов, предположительно регулируемых ТФ
YxeR представлены в столбцах gene_start и gene_stop табл.3. Для этого извлекли координаты генов из того же генома Lactococcus lactis с помощью программы featcopy пакета EMBOSS, а также скрипта на Python.
Таблица 3.Результаты программы FIMO + координаты предположительно регулируемых найденными ТФ генов.
ID |
gene_name |
start_fimo |
stop_fimo |
strand |
p-value |
gene_start |
gene_stop |
motif_start |
motif_stop |
NP_266164.1 |
yabC |
267 |
273 |
+ |
5,56E-05 |
12924 |
13268 |
13190 |
13196 |
NP_266171.1 |
yacB |
249 |
255 |
+ |
5,56E-05 |
21351 |
21668 |
21599 |
21605 |
NP_266175.1 |
mesJ |
1 |
7 |
+ |
5,56E-05 |
23878 |
25149 |
23878 |
23884 |
NP_266183.1 |
ps103 |
133 |
139 |
+ |
5,56E-05 |
36271 |
36714 |
36403 |
36409 |
NP_266230.1 |
yahI |
401 |
407 |
+ |
5,56E-05 |
77479 |
78312 |
77879 |
77885 |
NP_266237.1 |
yaiE |
200 |
206 |
+ |
5,56E-05 |
86620 |
87072 |
86819 |
86825 |
NP_266428.1 |
acmA |
50 |
56 |
+ |
5,56E-05 |
268750 |
270069 |
268799 |
268805 |
NP_266429.1 |
nrdD |
288 |
294 |
- |
5,56E-05 |
270413 |
272656 |
270700 |
270706 |
NP_266437.1 |
ychH |
171 |
177 |
- |
5,56E-05 |
279273 |
280043 |
279443 |
279449 |
NP_266489.1 |
yddB |
55 |
61 |
+ |
5,56E-05 |
332607 |
333425 |
332661 |
332667 |
NP_266490.1 |
yddC |
81 |
87 |
- |
5,56E-05 |
333567 |
333914 |
333647 |
333653 |
NP_266517.1 |
ydgH |
359 |
365 |
+ |
5,56E-05 |
365261 |
365905 |
365619 |
365625 |
NP_266517.1 |
ydgH |
377 |
383 |
- |
5,56E-05 |
365261 |
365905 |
365637 |
365643 |
NP_266521.1 |
ppiA |
145 |
151 |
+ |
5,56E-05 |
368474 |
369304 |
368618 |
368624 |
NP_266522.1 |
lysQ |
160 |
166 |
- |
5,56E-05 |
369615 |
371048 |
369774 |
369780 |
NP_266680.1 |
yfbG |
162 |
168 |
- |
5,56E-05 |
514066 |
514338 |
514227 |
514233 |
NP_266817.1 |
ygfC |
150 |
156 |
+ |
5,56E-05 |
653769 |
654338 |
653918 |
653924 |
NP_266817.1 |
ygfC |
158 |
164 |
- |
5,56E-05 |
653769 |
654338 |
653926 |
653932 |
NP_266845.1 |
ygiK |
50 |
56 |
+ |
5,56E-05 |
688717 |
689337 |
688766 |
688772 |
NP_266848.1 |
efp |
283 |
289 |
+ |
5,56E-05 |
691623 |
692180 |
691905 |
691911 |
NP_266951.1 |
yiaC |
473 |
479 |
+ |
5,56E-05 |
802593 |
803165 |
803065 |
803071 |
NP_266961.1 |
yibC |
25 |
31 |
+ |
5,56E-05 |
813912 |
816080 |
813936 |
813942 |
NP_267033.1 |
yijH |
371 |
377 |
- |
5,56E-05 |
900367 |
900903 |
900737 |
900743 |
NP_267044.1 |
rpsN2 |
708 |
714 |
- |
5,56E-05 |
910421 |
910690 |
911128 |
911134 |
NP_267142.1 |
ykbC |
356 |
362 |
+ |
5,56E-05 |
1014515 |
1017796 |
1014870 |
1014876 |
NP_267191.2 |
pi228 |
455 |
461 |
- |
5,56E-05 |
1052187 |
1052486 |
1052641 |
1052647 |
NP_267255.1 |
nadD |
276 |
282 |
- |
5,56E-05 |
1106612 |
1107199 |
1106887 |
1106893 |
NP_267256.1 |
ylaF |
243 |
249 |
+ |
5,56E-05 |
1107724 |
1109211 |
1107966 |
1107972 |
NP_267301.1 |
guaC |
317 |
323 |
- |
5,56E-05 |
1158457 |
1159446 |
1158773 |
1158779 |
NP_267356.1 |
ymcB |
1 |
7 |
+ |
5,56E-05 |
1220495 |
1221142 |
1220495 |
1220501 |
NP_267366.1 |
hisB |
837 |
843 |
+ |
5,56E-05 |
1233461 |
1234063 |
1234297 |
1234303 |
NP_267484.1 |
yngE |
710 |
716 |
+ |
5,56E-05 |
1365549 |
1367069 |
1366258 |
1366264 |
NP_267490.1 |
ynhA |
143 |
149 |
- |
5,56E-05 |
1373039 |
1373314 |
1373181 |
1373187 |
NP_267503.1 |
pyrZ |
16 |
22 |
+ |
5,56E-05 |
1383817 |
1384605 |
1383832 |
1383838 |
NP_267607.1 |
busAB |
43 |
49 |
- |
5,56E-05 |
1472729 |
1474450 |
1472771 |
1472777 |
NP_267640.1 |
ypbC |
247 |
253 |
+ |
5,56E-05 |
1512823 |
1514202 |
1513069 |
1513075 |
NP_267659.1 |
xylT |
233 |
239 |
+ |
5,56E-05 |
1541108 |
1542409 |
1541340 |
1541346 |
NP_267692.1 |
yphJ |
163 |
169 |
- |
5,56E-05 |
1579184 |
1579492 |
1579346 |
1579352 |
NP_267738.1 |
yqcC |
388 |
394 |
+ |
5,56E-05 |
1626154 |
1626585 |
1626541 |
1626547 |
NP_267744.1 |
ftsQ |
167 |
173 |
+ |
5,56E-05 |
1631083 |
1632261 |
1631249 |
1631255 |
NP_267763.1 |
yqeI |
170 |
176 |
+ |
5,56E-05 |
1649621 |
1650535 |
1649790 |
1649796 |
NP_267778.1 |
asd |
95 |
101 |
+ |
5,56E-05 |
1666451 |
1667527 |
1666545 |
1666551 |
NP_267808.1 |
yraA |
525 |
531 |
+ |
5,56E-05 |
1701739 |
1701903 |
1702263 |
1702269 |
NP_267827.1 |
arb |
111 |
117 |
- |
5,56E-05 |
1721677 |
1723110 |
1721787 |
1721793 |
NP_267838.1 |
dexC |
262 |
268 |
+ |
5,56E-05 |
1736928 |
1738682 |
1737189 |
1737195 |
NP_267839.1 |
malE |
100 |
106 |
- |
5,56E-05 |
1739050 |
1740282 |
1739149 |
1739155 |
NP_267919.1 |
atpC |
200 |
206 |
+ |
5,56E-05 |
1822602 |
1823027 |
1822801 |
1822807 |
NP_268001.1 |
infC |
33 |
39 |
+ |
5,56E-05 |
1911881 |
1912375 |
1911913 |
1911919 |
NP_268002.1 |
ytbA |
571 |
577 |
- |
5,56E-05 |
1912985 |
1913533 |
1913555 |
1913561 |
NP_268050.1 |
fmt |
145 |
151 |
+ |
5,56E-05 |
1961034 |
1961993 |
1961178 |
1961184 |
NP_268061.1 |
ythA |
78 |
84 |
- |
5,56E-05 |
1973807 |
1974271 |
1973884 |
1973890 |
NP_268062.1 |
ythB |
245 |
251 |
+ |
5,56E-05 |
1974300 |
1974503 |
1974544 |
1974550 |
NP_268084.2 |
yuaE |
136 |
142 |
- |
5,56E-05 |
2005366 |
2006430 |
2005501 |
2005507 |
NP_268122.1 |
aspS |
363 |
369 |
- |
5,56E-05 |
2040170 |
2041942 |
2040532 |
2040538 |
NP_268186.1 |
dinP |
101 |
107 |
+ |
5,56E-05 |
2104597 |
2105688 |
2104697 |
2104703 |
NP_268199.1 |
snf |
92 |
98 |
+ |
5,56E-05 |
2120587 |
2123691 |
2120678 |
2120684 |
NP_268241.1 |
rpsH |
63 |
69 |
+ |
5,56E-05 |
2162213 |
2162611 |
2162275 |
2162281 |
NP_268394.1 |
yxbF |
339 |
345 |
- |
5,56E-05 |
2320203 |
2320406 |
2320541 |
2320547 |
NP_268412.1 |
yxeA |
428 |
434 |
- |
5,56E-05 |
2347540 |
2348613 |
2347967 |
2347973 |
Метилирование
С помощью программы fuzznuc из пакета EMBOSS были найдены все сайты по паттерну ATGACAY в последовательности Lactococcus lactis subsp. lactis Il1403 .
Полученный файл - emboss_out.txt. Cайты, пересекающиеся с предсказанными ранее сайтами связывания ТФ, приведены в табл. 4.
Таблица 4.Пересекающиеся чайты, найденные с помощью fuzznuc и FIMO
Start | End | Strand | Pattern | Mismatch | Sequence |
23878 | 23884 | + | pattern:ATGACAY | . | ATGACAC |
688766 | 688772 | + | pattern:ATGACAY | . | ATGACAC |
1220495 | 1220501 | + | pattern:ATGACAY | . | ATGACAC |
1649790 | 1649796 | + | pattern:ATGACAY | . | ATGACAC |
REBASE (The Restriction Enzyme Database) - это база данных, в которой содержится информация о различных ферментах рестрикции и связанных с ними белков: метилтрансферазах, эндонуклеазах,
никазах, хеликазах и др. По названию бактерии Lactococcus lactis lactis Il1403 в БД REBASE было найдено 3 фермента.
На рис. 3 приведен результат выдачи REBASE. Lla1403I является рестриктазой I типа, M.Lla1403I является метилтрансферазой I типа, S.Lla1403I также обладает метилтрансферазной активностью.
Однако сайты узнавания данных ферментов неизвестны. Поэтому проверить, является ли найденный мотив сайтом узнавания одной из метилтрансфераз не представляется возможным.
 |
Рис. 3 Ферменты, закодированные в геноме Lactococcus lactis lactis Il1403(REBASE) |