Поиск сигналов. Теория

1. MEME

MEME - программа для поиска мотивов в группе последовательностей. Мотивы в MEME представлены в виде матрицы, составленной из вероятнотей нахождения каждой буквы в конкретной позиции(position-dependent letter-probability matrices или PWM).

Из файла с двумя участками ДНК длиной 21 п.н., с которыми связывается транскрипционный фактор YxeR с помощью программы MEME был найден мотив связывания. Логотип мотива представлен на рис.1. Высотва букв в LOGO отражает относительную частоту встречаемости данной буквы в данной позиции. В табл.1 представлены основные презультаты выдачи MEME.

Рис. 1. LOGO сайта связывания YxeR (MEME)

Таблица 1.Результаты выдачи MEME

E-value 6.8e-002
Длина 7
PWM pwm.txt

2. tomtom

tomtom сравнивает заданный мотив с известными мотивами в базе данных. Найденные в указанной базе данных мотивы представляются в виде списка, отсортированного по значению p-value.

На основе исходного мотива в прокариотической базе данных RegTransBase было найдено 5 находок с E-value меньше 3. Параметры лучшей находки представлены в табл.2.

Таблица 2.Параметры лучшей находки (tomtom)

Название ТФ RbsR_Streptomycetaceae_Rubrobacteraceae
E-value 1.48e+00
Перекрытие 7
PWM pwm.txt
Рис.2. Выравнивание исходного мотива (внизу) и наиболее похожего в в БД RegTransBase (RbsR_Streptomycetaceae_Rubrobacteraceae)

Рассматриваемые мотивы не очент похожи друг на друга: найденный мотив длиннее исходного на 13 п.н., E-value выравнивая больше единицы. На LOGO все позиции исходного мотива совпадают с соответствующей частью найденного, кроме 3-й позиции (вместо G в найденной последовательности расположен T).


3. FIMO

FIMO (Find Individual Motif Occurrences)- программа, которая ищет заданный мотив в последовательности. Исходный мотив искался в БД Upstream Sequences: prokaryotic, геном Lactococcus lactis subsp. lactis Il1403. Т.к. мы ищем сайт связывания транскрипционного фактора, искать мотив нужно в upstream region, т.к. чаще всего именно там происходит регуляция экспрессии гена. Список координат находок и их p-value представлены в таблице 3.

Координаты генов, предположительно регулируемых ТФ YxeR представлены в столбцах gene_start и gene_stop табл.3. Для этого извлекли координаты генов из того же генома Lactococcus lactis с помощью программы featcopy пакета EMBOSS, а также скрипта на Python.

Таблица 3.Результаты программы FIMO + координаты предположительно регулируемых найденными ТФ генов.

ID gene_name start_fimo stop_fimo strand p-value gene_start gene_stop motif_start motif_stop
NP_266164.1 yabC 267 273 + 5,56E-05 12924 13268 13190 13196
NP_266171.1 yacB 249 255 + 5,56E-05 21351 21668 21599 21605
NP_266175.1 mesJ 1 7 + 5,56E-05 23878 25149 23878 23884
NP_266183.1 ps103 133 139 + 5,56E-05 36271 36714 36403 36409
NP_266230.1 yahI 401 407 + 5,56E-05 77479 78312 77879 77885
NP_266237.1 yaiE 200 206 + 5,56E-05 86620 87072 86819 86825
NP_266428.1 acmA 50 56 + 5,56E-05 268750 270069 268799 268805
NP_266429.1 nrdD 288 294 - 5,56E-05 270413 272656 270700 270706
NP_266437.1 ychH 171 177 - 5,56E-05 279273 280043 279443 279449
NP_266489.1 yddB 55 61 + 5,56E-05 332607 333425 332661 332667
NP_266490.1 yddC 81 87 - 5,56E-05 333567 333914 333647 333653
NP_266517.1 ydgH 359 365 + 5,56E-05 365261 365905 365619 365625
NP_266517.1 ydgH 377 383 - 5,56E-05 365261 365905 365637 365643
NP_266521.1 ppiA 145 151 + 5,56E-05 368474 369304 368618 368624
NP_266522.1 lysQ 160 166 - 5,56E-05 369615 371048 369774 369780
NP_266680.1 yfbG 162 168 - 5,56E-05 514066 514338 514227 514233
NP_266817.1 ygfC 150 156 + 5,56E-05 653769 654338 653918 653924
NP_266817.1 ygfC 158 164 - 5,56E-05 653769 654338 653926 653932
NP_266845.1 ygiK 50 56 + 5,56E-05 688717 689337 688766 688772
NP_266848.1 efp 283 289 + 5,56E-05 691623 692180 691905 691911
NP_266951.1 yiaC 473 479 + 5,56E-05 802593 803165 803065 803071
NP_266961.1 yibC 25 31 + 5,56E-05 813912 816080 813936 813942
NP_267033.1 yijH 371 377 - 5,56E-05 900367 900903 900737 900743
NP_267044.1 rpsN2 708 714 - 5,56E-05 910421 910690 911128 911134
NP_267142.1 ykbC 356 362 + 5,56E-05 1014515 1017796 1014870 1014876
NP_267191.2 pi228 455 461 - 5,56E-05 1052187 1052486 1052641 1052647
NP_267255.1 nadD 276 282 - 5,56E-05 1106612 1107199 1106887 1106893
NP_267256.1 ylaF 243 249 + 5,56E-05 1107724 1109211 1107966 1107972
NP_267301.1 guaC 317 323 - 5,56E-05 1158457 1159446 1158773 1158779
NP_267356.1 ymcB 1 7 + 5,56E-05 1220495 1221142 1220495 1220501
NP_267366.1 hisB 837 843 + 5,56E-05 1233461 1234063 1234297 1234303
NP_267484.1 yngE 710 716 + 5,56E-05 1365549 1367069 1366258 1366264
NP_267490.1 ynhA 143 149 - 5,56E-05 1373039 1373314 1373181 1373187
NP_267503.1 pyrZ 16 22 + 5,56E-05 1383817 1384605 1383832 1383838
NP_267607.1 busAB 43 49 - 5,56E-05 1472729 1474450 1472771 1472777
NP_267640.1 ypbC 247 253 + 5,56E-05 1512823 1514202 1513069 1513075
NP_267659.1 xylT 233 239 + 5,56E-05 1541108 1542409 1541340 1541346
NP_267692.1 yphJ 163 169 - 5,56E-05 1579184 1579492 1579346 1579352
NP_267738.1 yqcC 388 394 + 5,56E-05 1626154 1626585 1626541 1626547
NP_267744.1 ftsQ 167 173 + 5,56E-05 1631083 1632261 1631249 1631255
NP_267763.1 yqeI 170 176 + 5,56E-05 1649621 1650535 1649790 1649796
NP_267778.1 asd 95 101 + 5,56E-05 1666451 1667527 1666545 1666551
NP_267808.1 yraA 525 531 + 5,56E-05 1701739 1701903 1702263 1702269
NP_267827.1 arb 111 117 - 5,56E-05 1721677 1723110 1721787 1721793
NP_267838.1 dexC 262 268 + 5,56E-05 1736928 1738682 1737189 1737195
NP_267839.1 malE 100 106 - 5,56E-05 1739050 1740282 1739149 1739155
NP_267919.1 atpC 200 206 + 5,56E-05 1822602 1823027 1822801 1822807
NP_268001.1 infC 33 39 + 5,56E-05 1911881 1912375 1911913 1911919
NP_268002.1 ytbA 571 577 - 5,56E-05 1912985 1913533 1913555 1913561
NP_268050.1 fmt 145 151 + 5,56E-05 1961034 1961993 1961178 1961184
NP_268061.1 ythA 78 84 - 5,56E-05 1973807 1974271 1973884 1973890
NP_268062.1 ythB 245 251 + 5,56E-05 1974300 1974503 1974544 1974550
NP_268084.2 yuaE 136 142 - 5,56E-05 2005366 2006430 2005501 2005507
NP_268122.1 aspS 363 369 - 5,56E-05 2040170 2041942 2040532 2040538
NP_268186.1 dinP 101 107 + 5,56E-05 2104597 2105688 2104697 2104703
NP_268199.1 snf 92 98 + 5,56E-05 2120587 2123691 2120678 2120684
NP_268241.1 rpsH 63 69 + 5,56E-05 2162213 2162611 2162275 2162281
NP_268394.1 yxbF 339 345 - 5,56E-05 2320203 2320406 2320541 2320547
NP_268412.1 yxeA 428 434 - 5,56E-05 2347540 2348613 2347967 2347973


Метилирование

С помощью программы fuzznuc из пакета EMBOSS были найдены все сайты по паттерну ATGACAY в последовательности Lactococcus lactis subsp. lactis Il1403 . Полученный файл - emboss_out.txt. Cайты, пересекающиеся с предсказанными ранее сайтами связывания ТФ, приведены в табл. 4.

Таблица 4.Пересекающиеся чайты, найденные с помощью fuzznuc и FIMO

Start End Strand Pattern Mismatch Sequence
23878 23884 + pattern:ATGACAY . ATGACAC
688766 688772 + pattern:ATGACAY . ATGACAC
1220495 1220501 + pattern:ATGACAY . ATGACAC
1649790 1649796 + pattern:ATGACAY . ATGACAC

REBASE (The Restriction Enzyme Database) - это база данных, в которой содержится информация о различных ферментах рестрикции и связанных с ними белков: метилтрансферазах, эндонуклеазах, никазах, хеликазах и др. По названию бактерии Lactococcus lactis lactis Il1403 в БД REBASE было найдено 3 фермента. На рис. 3 приведен результат выдачи REBASE. Lla1403I является рестриктазой I типа, M.Lla1403I является метилтрансферазой I типа, S.Lla1403I также обладает метилтрансферазной активностью. Однако сайты узнавания данных ферментов неизвестны. Поэтому проверить, является ли найденный мотив сайтом узнавания одной из метилтрансфераз не представляется возможным.

Рис. 3 Ферменты, закодированные в геноме Lactococcus lactis lactis Il1403(REBASE)


© Васильева Елена, 2015