Поиск сигналов в нуклеотидных последовательностях
Используя сервер MEME, в нуклеотидных последовательностях из генома E.coli мы искали предполагаемый
сигнал, узнаваемый белком PurR. Изменив параметры поиска (искать один мотив конкретной длины 16,
встречающийся в последовательности не более одного раза), мы получили следующие результаты.
1.LOGO мотива
2.PSSM
![](../../images/pssm.jpg)
зелёным выделен столбик множеств нуклеотидов с положительным вкладом в вес
3.таблица с характеристиками найденных мотивов (название, цепь, номер первого нуклеотида, P-value)
NAME
|
STRAND |
START |
P-VALUE |
SITES |
purE |
+ |
163 |
5.46e-09 |
TTTCACAGCC |
ACGCAACCGTTTTCCT |
TGCTCTCTTT |
purL |
+ |
158 |
7.83e-09 |
TTTTATTTCC |
ACGCAAACGGTTTCGT |
CAGCGCATCA |
cvpA |
+ |
178 |
9.71e-09 |
GGAAATCCCT |
ACGCAAACGTTTTCTT |
TTTCTGTTAG |
codB |
- |
167 |
1.20e-08 |
TGAAGATAAA |
AAGCAATCGTTTTCGT |
GGGGAAATAT |
purR |
+ |
189 |
2.47e-08 |
AGGTGTGTAA |
AGGCAAACGTTTACCT |
TGCGATTTTG |
pyrC |
- |
183 |
5.57e-08 |
CAAAGGATAA |
GCGGAAACGTTTTCCT |
TTGCACGAAA |
carA |
+ |
13 |
5.80e-08 |
TCTTCTTGCT |
GCGCAAGCGTTTTCCA |
GAACAGGTTA |
purA |
- |
128 |
1.00e-07 |
TTTTTTGTTC |
AGCCAATCGTTTTCCT |
CAACATGTAG |
purM |
- |
170 |
1.91e-07 |
CTAACAGGGA |
AAGCAAACGTTTGCGA |
GACTGCTTTA |
folD |
- |
271 |
2.69e-07 |
CGCACCTGCT |
GCGCAATCGTTTTACC |
GTCAATAATC |
guaB |
+ |
181 |
5.91e-07 |
AAAGGGGTAG |
ATGCAATCGGTTACGC |
TCTGTATAAT |
glnB |
+ |
167 |
6.57e-07 |
CACGAGCTGG |
ATGCAAACGATTTCAA |
GGAATGAATT |
4.расположение предполагаемых мотивов в последовательности
>purE
tcgcccggcggtgcatgaacttatcgccaatcagcaacctgcttttcgcgtggtactgggtgcctggcatacggaaggttcaatggt
gaaagtcacggcggatgacgttgagctgattcattttccgttttaaaaaacccgcaactttgctgatttcacagcc
acgcaaccgttttccttgctctctttccgtgctattctctgtgccctctaaagccgagagttgtgcaccacaggagtttt
aagacgcatgtcttcccgcaataatccggcgcgtgtcgccatcgtgatggggtccaa
>purL
attctctgtgtcgtgcgcgtcccagcttgaaaaaacgtaataatagtgaaaggtttactcataaatgagcggcattttgcgtaaacct
gcgccagatggcaacttattacagccattggcggcacgcgttgctaattcacgatggtgattttatttcc
acgcaaacggtttcgtcagcgcatcagattctttataatgacgcccgtttcccccccttgggtacaccgaaagcttagaag
acgagagacttatgatggaaattctgcgtggttcgcctgcactgtcggcattccgaatcaa
>cvpA
tgcctgatgcgacgctggcgcgtcttatcaggcctacgcaggggtagaaccgtaggtcggataaggcgtttacgccgcatccgacacgc
attgcccgatgccgcaaaggcataaaaagtcgatggcgttgaatattttttcagcgccatttttattgatgcgcgggaaggaaatccct
acgcaaacgttttctttttctgttagaatgcgccccgaacaggatgacagggcgtaaaatcgtgggacacatatggtctgga
ttgattacgccataatcgcggtgattgctttttcctctct
>codB
tacggacctgaaccgtaggtcggataaggcgctcgcgtcgcatccgacaccatgctcagatgcctgatgcgacgctgacgcgtcttat
caggcctacccactgtttttacaccgataatttttcccccacctttttgcactcattcatataaaaaatatatttcccc
acgaaaacgattgctttttatcttcagatgaatagaatgcggcggattttttgggtttcaaacagcaaaaagggggaattt
cgtgtcgcaagataacaactttagccaggggccagtcccgcagtcggcgcgg
>purR
ttacacactgtgatgaaaaaatctcccgtcatttataatgataagtgtttttaccacttccccttttcgtcaagatcggccaaaattc
cacgcttacactatttgcgtactggccattgaccccttcctgacgctccgtgtcgtttttccggcgtaccgcaacacttttgttgtgcgtaaggtgtgtaa
aggcaaacgtttaccttgcgattttgcaggagctgaagttagggtctggagtgaaatggaatggcaacaataaaagatgta
gcgaaacgagcaaacgtttccactacaact
>pyrC
gaaccaggcattacgcaattactttaaccagcaacctgcttacgtcctgcgcgaagatggcagccagggcgaagcaatggcgaaaaaact
ggcgaaaggcattgaagtgaagccaggcgaaattgtcattccatttactgattaatcacgagggcgcattcgcgccctttatttttcgtgcaa
aggaaaacgtttccgcttatcctttgtgtccggcaaaaacatcccttcagccggagcatagagattaatgactgcaccatcccagg
tattaaagatccgccgcccagacgactggca
>carA!
caatcttcttgctgcgcaagcgttttccagaacaggttagatgatctttttgtcgcttaatgcctgtaaaacatgcatgagccacaaaa
taatataaaaaatcccgccattaagttgacttttagcgcccatatctccagaatgccgccgtttgccagaaattcgtcggtaagcaga
tttgcattgatttacgtcatcattgtgaattaatatgcaaataaagtgagtgaatattctctggagggtgttttgattaagtcagcgctattggtt
ctggaagacggaacccagtttcacggt
>purA
tagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatattttacgtcgttttggcggtggacttgtggt
tgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaaaaaacagactgatcgaggtcatttttgagt
gcaaaaagtgctgtaactctgaaaaagcgatggtagaatccatttttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcaccc
aatggggtgacgaaggtaaa
>purM
ttttcgttgactttagtcaaaatgataacggtttgagataaagttattttatattcagatggttatgaaagaagattattccatccgaaaactaaccttt
accctggcacaagtcttctttcgccgcgcgcctggggaaaagacgtgcaaaaaggttgtgtaaagcagtc
tcgcaaacgtttgctttccctgttagaattgcgccgaattttatttttctaccgcaagtaacgcgtggggacccaagcagtgaccgataaaac
ctctcttagctacaaagatgccggtgttgatattgac
>folD!
aaattctttttatattgtcaggtatttcttaaattatcttaatccttagacaaggaaataaatcagttccagatttacaacgccatcatggacgaaaaatg
aagctttcagtctcagcgacggtgcgcctcaccttcgcaagaggtcgcttcacgcgataaatctgaaacgaa
acctgacagcgcgccccgcttctgacaaaataggcgcatccccttcgatctacgtaacagatggaatcctctctctgatggcagcaaagattattgac
ggtaaaacgattgcgcagcaggtgcgctc
>guaB
acctgtcccatctcatgctcaagcagcagacgaaccgtttgattcaggcgactaacggtaaaaattgcaggggattgagaaggtaacatgtgagcgagatc
aaattctaaatcagcaggttattcagtcgatagtaacccgcccttcggggatagcaagcattttttgcaaaaaggggtag
atgcaatcggttacgctctgtataatgccgcggcaatatttattaaccactctggtcgagatattgcccatgctacgtatcgctaaagaagctc
tgacgtttgacgacgttctcctcgt
>glnB
gggtgaaaatacggcgctgccaacctttgttgaggcacgtaatcagtttgaactcaactatttgcgtaagctgctgcaaatcaccaaaggcaacgtcaccc
acgcggcgagaatggcggggcgcaaccggacagaattttataaactgctttcccgacacgagctgg
atgcaaacgatttcaaggaatgaattggcgttatgtgttacgtttagcagatcaaaagacaggcgaccttttcaaggaatagcatgaaaaagat
tgatgcgattataaaacccttcaagctggacgatgtccg
Соотнеся результаты работы MEME с данными о реальных сигналах, мы обнаружили, что:
- всего в данных последовательностях 10 сигналов
- из 12 мотивов, предсказанных MEME, два были лишними (из folD и carA)
- сигнал в последовательности purA на самом деле находится в другом месте (отмечено жёлтым)
- итого 9 сигналов предсказаны верно
Таким образом, чувствительность MEME в данном случае оказалась равной 9/10=0.9,
а специфичность - 9/12=0.75