Программа MEME

Последовательности ДНК E.coli
Пользуясь сервером MEME, нашел общий мотив в последовательностях ДНК (предполагаемый сигнал, узнаваемый белком PurR).
Для этого провел поиск с заданными параметрами (количество встреч каждого мотива - не более 1го на последовательность, длина мотива - 16, число различных мотивов - 1).

В результате мною было получено LOGO (матрица, показывающая возможность появления определенного буквы в поределенной позиции на протяжении всего мотива, чем больше вероятность, тем больше буква):

Матрица PSSM (используется поисковыми программами, такими как MAST):

A C G T Pattern
1 135 -1010 34 -1010 R
2 181 -1010 -1010 -1010 A
3 67 -124 34 -65 A
4 -65 -1010 193 -1010 G
5 67 76 -1010 -65 H
6 167 -124 -1010 -1010 A
7 181 -1010 -1010 -1010 A
8 93 -24 -124 -65 A
9 -1010 222 -1010 -1010 C
10 -1010 -1010 222 -1010 G
11 -65 -1010 -24 116 T
12 -1010 -1010 -1010 181 T
13 -1010 -1010 -1010 181 T
14 -165 -24 134 -65 G
15 -165 208 -1010 -1010 C
16 -165 -124 176 -165 G

Таблица найденных мотивов:

имя
последовательности
цепь координата
первого
нуклеотида
P-VALUE
purM - 21 2.63e-10
cvpA - 29 6.13e-10
purE - 14 6.22e-09
purC + 32 8.50e-09
codB - 18 4.47e-08
purL - 9 7.23e-08
purR - 40 1.04e-07
guaB + 30 1.03e-06
glnB + 16 1.74e-06
purA - 78 3.85e-06
rpiA - 41 4.43e-06

Исходные последовательности (найденный мотив подчеркнут):
>codB
aaaaaatatatttccccacgaaaacgattgctttttatcttcagatgaatagaatgcggcggattttttgggtttcaaacagcaaaaagggggaatttcg

>purE
tgatttcacagccacgcaaccgttttccttgctctctttccgtgctattctctgtgccctctaaagccgagagttgtgcaccacaggagttttaagacgc

>pyrC
agggcgcattcgcgccctttatttttcgtgcaaaggaaaacgtttccgcttatcctttgtgtccggcaaaaacatcccttcagccggagcatagagatta

>purR
ggcgtaccgcaacacttttgttgtgcgtaaggtgtgtaaaggcaaacgtttaccttgcgattttgcaggagctgaagttagggtctggagtgaaatggaa

>cvpA
tttattgatgcgcgggaaggaaatccctacgcaaacgttttctttttctgttagaatgcgccccgaacaggatgacagggcgtaaaatcgtgggacacat

>purM
aaaggttgtgtaaagcagtctcgcaaacgtttgctttccctgttagaattgcgccgaattttatttttctaccgcaagtaacgcgtggggacccaagcag

>guaB
gatagcaagcattttttgcaaaaaggggtagatgcaatcggttacgctctgtataatgccgcggcaatatttattaaccactctggtcgagatattgccc

>glnB
ttcccgacacgagctggatgcaaacgatttcaaggaatgaattggcgttatgtgttacgtttagcagatcaaaagacaggcgaccttttcaaggaatagc

>purL
ttatttccacgcaaacggtttcgtcagcgcatcagattctttataatgacgcccgtttcccccccttgggtacaccgaaagcttagaagacgagagactt

>purA
aaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaactctgaaaaagcgatggtagaatccatttttaagcaaacggtgattttgaaaaa

>folD
tcacgcgataaatctgaaacgaaacctgacagcgcgccccgcttctgacaaaataggcgcatccccttcgatctacgtaacagatggaatcctctctctg

>rpiA
tattttatggatgagttaaccacgcggcttgccaacggggtctgaatcgctttttttgtatataatgcgtgtgaaatttcataccacaggcgaaacgatc

>carA
tttgccagaaattcgtcggtaagcagatttgcattgatttacgtcatcattgtgaattaatatgcaaataaagtgagtgaatattctctggagggtgttt

>pdhR
cctgtatggacataaggtgaatactttgttactttagcgtcacagacatgaaattggtaagaccaattgacttcggcaagtggcttaagacaggaactca

>fixA
tgaaagttggatttatctgcgtgtgacattttcaatattggtgattaaagttttatttcaaaattaaagggcgtgatatctgtaattaacaccaccgata

Сверим полученные данные с экпериментально полученными результатами
1. Координаты предсказанных сайтов в большинстве случаев расходятся с реальными (в основном на 1-2 нуклеотида)
2. Чувствительность = 10/10, специфичность = 10/11

Назад