Сигналы в нуклеотидных последовательностях. MEME

Был дан файл, содержащие последовательности ДНК E.coli, находящейся перед генами, регулируемыми белком PurR (пуриновым репрессором).
Пользуясь сервером MEME, найдите общий мотив в предложенных последовательностях (предполагаемый сигнал, узнаваемый белком PurR)
После установления следующих параметров для MEME:

и загрузки файла, содержащие последовательности ДНК E.coli, и небольшого ожидания  был полчучен отчет, откуда были полученны все необходимые данные.

LOGO:

 

Матрица PSSM:

A
С
G
T
Паттерн
1
86
35
-6
  -1045
W
2
122
-1045
-65
-36
A
3
-95
-6
135 
-195
G
4
-1045
-1045
181  
-36
G
5
137
-165
-165
-95
A
6
186
-1045
-1045
-1045
A
7
186
-1045
-1045
-1045
A
8
151
-65
-1045
-195
A
9
-1045
216
-1045
-1045
C
10
-1045
-1045
216
-1045
G
11
37
-165
-165
86
M
12
-1045
-1045
-1045
186
T
13
-1045
-1045
-165
175
T
14
-1045
-65
193
-1045
G
15
-1045
193
-65
-1045
C
16
-36
-65
135
-195
G

 

Таблица найденных мотивов (с P-value):

Имя посдедовательности
Направление цепи
Координата первого нуклеотида
P-VALUE
cvpA
-
179
5.76e-09
pyrC
+
182
7.61e-09
purE
-
164
7.61e-09
purR
-
190
4.55e-08
carA
-
14
6.03e-08
purL
-
159
6.03e-08
folD
+
270
8.39e-08
purM
-
171
1.10e-07
codB
+
166
1.61e-07
purA
+
127
1.79e-07
araB
+
240
1.92e-06
guaB
-
182
2.03e-06
rbsD
+
175
2.40e-06
glnB
-
168
2.65e-06

Исходные последовательности с подчеркнутыми сигналами:

 

>codB
tacggacctgaaccgtaggtcggataaggcgctcgcgtcgcatccgacaccatgctcagatgcctgatgcgacgc
tgacgcgtcttatcaggcctacccactgtttttacaccgataatttttcccccacctttttgcactcattcatat
aaaaaatatatttccccacgaaaacgattgctttttatcttcagatgaatagaatgcggcggattttttgggttt
caaacagcaaaaagggggaatttcgtgtcgcaagataacaactttagccaggggccagtcccgcagtcggcgcgg

>purE
Tcgcccggcggtgcatgaacttatcgccaatcagcaacctgcttttcgcgtggtactgggtgcctggcatacgga
aggttcaatggtgaaagtcacggcggatgacgttgagctgattcattttccgttttaaaaaacccgcaactttgc
tgatttcacagccacgcaaccgttttccttgctctctttccgtgctattctctgtgccctctaaagccgagagtt
gtgcaccacaggagttttaagacgcatgtcttcccgcaataatccggcgcgtgtcgccatcgtgatggggtccaa

>pyrC
Gaaccaggcattacgcaattactttaaccagcaacctgcttacgtcctgcgcgaagatggcagccagggcgaagc
aatggcgaaaaaactggcgaaaggcattgaagtgaagccaggcgaaattgtcattccatttactgattaatcacg
agggcgcattcgcgccctttatttttcgtgcaaaggaaaacgtttccgcttatcctttgtgtccggcaaaaacat
cccttcagccggagcatagagattaatgactgcaccatcccaggtattaaagatccgccgcccagacgactggca

>purR
Ttacacactgtgatgaaaaaatctcccgtcatttataatgataagtgtttttaccacttccccttttcgtcaaga
tcggccaaaattccacgcttacactatttgcgtactggccattgaccccttcctgacgctccgtgtcgtttttcc
ggcgtaccgcaacacttttgttgtgcgtaaggtgtgtaaaggcaaacgtttaccttgcgattttgcaggagctga
agttagggtctggagtgaaatggaatggcaacaataaaagatgtagcgaaacgagcaaacgtttccactacaact

>cvpA
Tgcctgatgcgacgctggcgcgtcttatcaggcctacgcaggggtagaaccgtaggtcggataaggcgtttacgc
cgcatccgacacgcattgcccgatgccgcaaaggcataaaaagtcgatggcgttgaatattttttcagcgccatt
tttattgatgcgcgggaaggaaatccctacgcaaacgttttctttttctgttagaatgcgccccgaacaggatga
cagggcgtaaaatcgtgggacacatatggtctggattgattacgccataatcgcggtgattgctttttcctctct

>purM
Ttttcgttgactttagtcaaaatgataacggtttgagataaagttattttatattcagatggttatgaaagaaga
ttattccatccgaaaactaacctttaccctggcacaagtcttctttcgccgcgcgcctggggaaaagacgtgcaa
aaaggttgtgtaaagcagtctcgcaaacgtttgctttccctgttagaattgcgccgaattttatttttctaccgc
aagtaacgcgtggggacccaagcagtgaccgataaaacctctcttagctacaaagatgccggtgttgatattgac

>guaB
Acctgtcccatctcatgctcaagcagcagacgaaccgtttgattcaggcgactaacggtaaaaattgcaggggat
tgagaaggtaacatgtgagcgagatcaaattctaaatcagcaggttattcagtcgatagtaacccgcccttcggg
gatagcaagcattttttgcaaaaaggggtagatgcaatcggttacgctctgtataatgccgcggcaatatttatt
aaccactctggtcgagatattgcccatgctacgtatcgctaaagaagctctgacgtttgacgacgttctcctcgt

>glnB
Gggtgaaaatacggcgctgccaacctttgttgaggcacgtaatcagtttgaactcaactatttgcgtaagctgct
gcaaatcaccaaaggcaacgtcacccacgcggcgagaatggcggggcgcaaccggacagaattttataaactgct
ttcccgacacgagctggatgcaaacgatttcaaggaatgaattggcgttatgtgttacgtttagcagatcaaaag
acaggcgaccttttcaaggaatagcatgaaaaagattgatgcgattataaaacccttcaagctggacgatgtccg

>purL
Attctctgtgtcgtgcgcgtcccagcttgaaaaaacgtaataatagtgaaaggtttactcataaatgagcggcat
tttgcgtaaacctgcgccagatggcaacttattacagccattggcggcacgcgttgctaattcacgatggtgatt
ttatttccacgcaaacggtttcgtcagcgcatcagattctttataatgacgcccgtttcccccccttgggtacac
cgaaagcttagaagacgagagacttatgatggaaattctgcgtggttcgcctgcactgtcggcattccgaatcaa

>purA
Tagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatattttac
gtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaa
aaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaactctgaaaaagcgatggtagaatccattt
ttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaa

>folD
Aaattctttttatattgtcaggtatttcttaaattatcttaatccttagacaaggaaataaatcagttccagatt
tacaacgccatcatggacgaaaaatgaagctttcagtctcagcgacggtgcgcctcaccttcgcaagaggtcgct
tcacgcgataaatctgaaacgaaacctgacagcgcgccccgcttctgacaaaataggcgcatccccttcgatcta
cgtaacagatggaatcctctctctgatggcagcaaagattattgacggtaaaacgattgcgcagcaggtgcgctc

>rpiA
ttgaatggcgtggcgttattgcctcaatttgcctgtaaacaggggcttgcgaacggtgaactggtgcgcctgttt
gcaccgtggagcggcatacccagaccgttgtatgctttatttgcggggcgaaaggggatgcctgccattgcgcga
tattttatggatgagttaaccacgcggcttgccaacggggtctgaatcgctttttttgtatataatgcgtgtgaa
atttcataccacaggcgaaacgatcatgacgcaggatgaattgaaaaaagcagtaggatgggcggcacttcagta

>carA
caatcttcttgctgcgcaagcgttttccagaacaggttagatgatctttttgtcgcttaatgcctgtaaaacatg
catgagccacaaaataatataaaaaatcccgccattaagttgacttttagcgcccatatctccagaatgccgccg
tttgccagaaattcgtcggtaagcagatttgcattgatttacgtcatcattgtgaattaatatgcaaataaagtg
agtgaatattctctggagggtgttttgattaagtcagcgctattggttctggaagacggaacccagtttcacggt

>pdhR
tgaatcggttcaattcggatttttatagtttaataatcgttaaaaaactcctttcctacgtaaagtctacatttg
tgcatagttacaactttgaaacgttatatatgtcaagttgttaaaatgtgcacagtttcatgatttcaatcaaaa
cctgtatggacataaggtgaatactttgttactttagcgtcacagacatgaaattggtaagaccaattgacttcg
gcaagtggcttaagacaggaactcatggcctacagcaaaatccgccaaccaaaactctccgatgtgattgagcag

>fixA
tcgttaattttgattaataatcagtttgttatgctctgttgtgagtaaaaaataacatctgactttcaatattgg
tgatccataaaacaatattgaaaatttctttttgctacgccgtgttttcaatattggtgaggaacttaacaatat
tgaaagttggatttatctgcgtgtgacattttcaatattggtgattaaagttttatttcaaaattaaagggcgtg
atatctgtaattaacaccaccgatatgaacgacgtttccttcatgatttctggagatgcaatgaagattattact

>rbsD
Atttgcgtctgcgcggcaagctgtacttgctgctgcaacgtaatgcgctgcgtgcaccagatcaatttgaaatcc
cgccaaacagggttatcgaactgggtactcaggtcgaaatctaacgccagacgcctcctttcttcataagggggc
gtttttgttttcatggttaatcaccatgtaaaacgtttcgaggttgatcacatttccgtaacgtcacgatggttt
tcccaactcagtcaggattaaactgtgggtcagcgaaacgtttcgctgatggagaaaaaaatgaaaaaaggcacc

>araB
Tcgctaacccaaccggtaaccccgcttattaaaagcattctgtaacaaagcgggaccaaagccatgacaaaaacg
cgtaacaaaagtgtctataatcacggcagaaaagtccacattgattatttgcacggcgtcacactttgctatgcc
atagcatttttatccataagattagcggatcctacctgacgctttttatcgcaactctctactgtttctccatac
ccgtttttttggatggagtgaaacgatggcgattgcaattggcctcgattttggcagtgattctgtgcgagcttt

Неправильно предсказанный:

purA
Tagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatattttac
gtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaa
aaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaactctgaaaaagcgatggtagaatccattt
ttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaa

Всего в моем варианте было 17 последовательносте в 14 из которых MEME нашел мотивы. Всего реальных сайтов узнавания PurR 10 штук. В последовательности purA сайт узнавания был найден неверно. Посчитаем чувствительность и специфичность, учитывая, что чувствительность - это отношение числа правильных предсказаний к числу реальных сайтов, специфичность — отношение числа правильных предсказаний к общему числу предсказаний (правильных и неправильных).. При подсчёте чувствительности и специфичности реальный сайт считайте предсказанным верно, если он пересекается с предсказанием по 8 или более нуклеотидам.

Чувствительность = правильно предсказанных / всего правильных = 9 / 10 = 0.9
Специфичность = правильно предсказанных / всего предсказанных = 9 / 14 = 0.642

Как видно из подсчетов в данном случае Чувствительность у MEME довольно не плохая, однако специфичность на среднем уровне.