назад

Поиск сигналов в нуклеотидных послдовательностях:

В нуклеотдиных последовательностях , находящихся перед генами, регулируемыми белком PurR (пуриновым репрессором), найдем сигналы, предположительно узнаваемые белком PurR.

Используя сервер MEME (с параметрами: распределение количества встреч каждого мотива: "Zero or one per sequence", максимальная и минимальная длина мотива: по 16 (ищем мотивы строго заданной длины), число различных мотивов: 1)

В результате получем информацию о найденных сайтах взаимодействия с белком в последовательностях:

Диаграмма LOGO - отражает частоту встречаемости нуклеотидов внутри сайта (построена на основании сайтов, найденных в заданных последовательностях):

PSSM (позиционно-спецефиченая матрица)
Позиция мотива A C G T нуклеотиды, дающие положительный вклад
1 165 -1010 -40 -1010 A
2 -51 92 -40 -51 C
3 -1010 -140 192 -1010 G
4 -1010 192 -140 -1010 C
5 194 -1010 -1010 -1010 A
6 194 -1010 -1010 -1010 A
7 107 -140 -1010 49 W (A или T)
8 -1010 206 -1010 -1010 C
9 -1010 -1010 206 -1010 G
10 -151 -1010 -40 148 T
11 -1010 -1010 -1010 194 T
12 -1010 -1010 -1010 194 T
13 -51 -1010 -140 148 T
14 -151 192 -1010 -1010 C
15 -151 92 60 -151 S (C млм G)
16 -51 -40 -1010 129 A

Таблица найденных мотивов
Имя последовательности цепь, на котороый найден мотив координата первого нуклеотида P-value
purL + 308 5.26e-09
cvpA + 328 8.00e-09
purE + 313 8.00e-09
codB - 317 8.00e-09
purR + 339 1.44e-08
purA - 278 7.49e-08
pyrC - 333 8.13e-08
purM - 320 1.73e-07
folD - 421 3.61e-07
guaB + 331 3.80e-07
glnB + 317 5.22e-07

Исходные последовательности (найденные мотивы подчеркнуты):

>codB
tcctggagatctgacgaccattgatgatcctgcgtcgttggatcagatccgccaggcgatggaagagtaggttattgtcggatgcgtcgcgcggtgcatccggcactgtgtgccgatgcctga
tgcgacgctgacgcgttttatcatgcctacggacctgaaccgtaggtcggataaggcgctcgcgtcgcatccgacaccatgctcagatgcctgatgcgacgctgacgcgtcttatcaggccta
cccactgtttttacaccgataatttttcccccacctttttgcactcattcatataaaaaatatatttccccacgaaaacgattgctttttatcttcagatgaatagaatgcggcgg
attttttgggtttcaaacagcaaaaagggggaatttcgtgtcgcaagataacaactttagccaggggccagtcccgcagtcggcgcggaaaggggtattggcattgacgttcgtcatgctgggattaaccttcttttc

>purE
tgtgcgcaaacgcattgccgcgcgaatgcgcgcgaacagcaaagaagccaacagcagtaaatcgctggcgatcatggacgttaaccaaaacgcggtggtcagtgcgatggaaaaacatcaggt
gcaatggctgatccacgggcatacccatcgcccggcggtgcatgaacttatcgccaatcagcaacctgcttttcgcgtggtactgggtgcctggcatacggaaggttcaatggtgaaagtcac
ggcggatgacgttgagctgattcattttccgttttaaaaaacccgcaactttgctgatttcacagccacgcaaccgttttccttgctctctttccgtgctattctctgtgccctct
aaagccgagagttgtgcaccacaggagttttaagacgcatgtcttcccgcaataatccggcgcgtgtcgccatcgtgatggggtccaaaagcgactgggctaccatgcagttcgccgccgaaatcttcgaaatcctga

>pyrC
tcagaaagcgaccatgaaactgaagctgaaagcgctgcccgtgtttgataaagaaaaaggtgcgatcttcctgaaagagatggaagtggtcgatgcgacggtacaaccggaaaaaatgcaaac
ggtgatgcaaacgttgcttccctatttgaaccaggcattacgcaattactttaaccagcaacctgcttacgtcctgcgcgaagatggcagccagggcgaagcaatggcgaaaaaactggcgaa
aggcattgaagtgaagccaggcgaaattgtcattccatttactgattaatcacgagggcgcattcgcgccctttatttttcgtgcaaaggaaaacgtttccgcttatcctttgtgt
ccggcaaaaacatcccttcagccggagcatagagattaatgactgcaccatcccaggtattaaagatccgccgcccagacgactggcaccttcacctccgcgatggcgacatgttaaaaactgtcgtgccatatacca

>purR
tcgagaggaaatcagtgcagcgcggcagtcaaacccacggctacgatcaaaccgaggacgataatcgttgttaccagtgaaaatttaaggtcggtgctcatcaagttttctccttttttatta
ccacacaaaaagtgatattacgcatttttacacactgtgatgaaaaaatctcccgtcatttataatgataagtgtttttaccacttccccttttcgtcaagatcggccaaaattccacgctta
cactatttgcgtactggccattgaccccttcctgacgctccgtgtcgtttttccggcgtaccgcaacacttttgttgtgcgtaaggtgtgtaaaggcaaacgtttaccttgcgatt
ttgcaggagctgaagttagggtctggagtgaaatggaatggcaacaataaaagatgtagcgaaacgagcaaacgtttccactacaactgtgtcacacgtgatcaacaaaacacgtttcgtcgctgaagaaacgcgcaa

>cvpA
gccatccacgccagtgcagggtaaaattacccgtattctggttgggccggatgcctcgaaagataagctgaaaggttcgctgggtgagttgaagcaactttctggcttaagtggcgtggtaat
gggctatacgccgaattaatacggtcttgcctgatgcgacgctggcgcgtcttatcaggcctacgcaggggtagaaccgtaggtcggataaggcgtttacgccgcatccgacacgcattgccc
gatgccgcaaaggcataaaaagtcgatggcgttgaatattttttcagcgccatttttattgatgcgcgggaaggaaatccctacgcaaacgttttctttttctgttagaatgcgcc
ccgaacaggatgacagggcgtaaaatcgtgggacacatatggtctggattgattacgccataatcgcggtgattgctttttcctctctggttagcctgatccgcggctttgttcgtgaagcgttatcgctggtgacat

>purM
ggtgctgatatcttgctcacgcatcagtcccagcttgtgtttgacgagtgggtgtttgacttccacgatcttcatactctttctcctttgaggggcagccacaaaaaaaatcgacggattata
cctcctttcttcaaggcggcaatattcttttcgttgactttagtcaaaatgataacggtttgagataaagttattttatattcagatggttatgaaagaagattattccatccgaaaactaac
ctttaccctggcacaagtcttctttcgccgcgcgcctggggaaaagacgtgcaaaaaggttgtgtaaagcagtctcgcaaacgtttgctttccctgttagaattgcgccgaatttt
atttttctaccgcaagtaacgcgtggggacccaagcagtgaccgataaaacctctcttagctacaaagatgccggtgttgatattgacgcgggtaatgctctggttggaagaatcaaaggcgtagtgaagaaaacgcg

>guaB
acttgttgcccatgctgtgggcggaaggtcacccggcggttgctgttgcggaacatcgcgcagcgtacctgggcggtgtcgtctttgagtgtaaagtaccagtgaccggaagctggttgcgtg
aaattagaaatttcgccgctgatccaaacctgtcccatctcatgctcaagcagcagacgaaccgtttgattcaggcgactaacggtaaaaattgcaggggattgagaaggtaacatgtgagcg
agatcaaattctaaatcagcaggttattcagtcgatagtaacccgcccttcggggatagcaagcattttttgcaaaaaggggtagatgcaatcggttacgctctgtataatgccgc
ggcaatatttattaaccactctggtcgagatattgcccatgctacgtatcgctaaagaagctctgacgtttgacgacgttctcctcgttcctgctcactctaccgttctgccgaatactgctgacctcagcacccagc

>glnB
tgtccgcgcgttctctaccgatgcgatgaaacgcctgatgaccgcgagctggccgggtaatgtgcgccagttggtcaacgtgattgaacagtgcgtggcgctgacctcatctccggtgattag
tgatgcgctggtggagcaggcgctggagggtgaaaatacggcgctgccaacctttgttgaggcacgtaatcagtttgaactcaactatttgcgtaagctgctgcaaatcaccaaaggcaacgt
cacccacgcggcgagaatggcggggcgcaaccggacagaattttataaactgctttcccgacacgagctggatgcaaacgatttcaaggaatgaattggcgttatgtgttacgttt
agcagatcaaaagacaggcgaccttttcaaggaatagcatgaaaaagattgatgcgattataaaacccttcaagctggacgatgtccgcgaagcactggccgaagtcggtattaccggcatgacggtgaccgaagtga

>purL
ctcacacgcaactctccccgcgcttgaatggcggcgatacggttgtcggctttaccaaaccagggaatggatggccagagagcgaccgcgagcagcagtgccagaatgccgatgaacagataa
ttaatctttaattttttcaattagttaattctctgtgtcgtgcgcgtcccagcttgaaaaaacgtaataatagtgaaaggtttactcataaatgagcggcattttgcgtaaacctgcgccaga
tggcaacttattacagccattggcggcacgcgttgctaattcacgatggtgattttatttccacgcaaacggtttcgtcagcgcatcagattctttataatgacgcccgtttcccc
cccttgggtacaccgaaagcttagaagacgagagacttatgatggaaattctgcgtggttcgcctgcactgtcggcattccgaatcaacaaactgctggcacgttttcaggctgccaggctcccggttcacaatattt

>purA
cttccgcaacgcgttaatataacgactgcggtacaggtcaataaagccaccgcatcctcagggatgtcggtggttttctttttctataaggataatgaatgaattcgacaatctggctggcgc
ttgccctggttttggtactggaaggtttagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatattttacgtcgttttggcggtggacttg
tggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaaaaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaactctgaaaaagcgatg
gtagaatccatttttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaaggtaagatcgtcgatcttctgactgaacgggctaaatatgttgtacgcta

>folD
tagtagtaaattcctttttatcctctaagaatgtcttaattgaaaatatgcactctattctaaaaaatagagagccccgttagatgaatacttccgcgcaaaatatattcaacacaaatatag
acctgaagcggtaaattaccaggctgaaaattctttttatattgtcaggtatttcttaaattatcttaatccttagacaaggaaataaatcagttccagatttacaacgccatcatggacgaa
aaatgaagctttcagtctcagcgacggtgcgcctcaccttcgcaagaggtcgcttcacgcgataaatctgaaacgaaacctgacagcgcgccccgcttctgacaaaataggcgcatccccttc
gatctacgtaacagatggaatcctctctctgatggcagcaaagattattgacggtaaaacgattgcgcagcaggtgcgctctgaagttgctcaaaaagttcaggcgcgtattgcagccggactgcgggcac
    

Сравнение полученных результатов с реальными сайтами узнавания PurR :

Считаем сайт предсказанным верно, если он пересекается с реальным по 8 или более нуклеотидам

Сайты найдены правильно во всех последовательностях, кроме purL и folD, в остальных последовательностях найденные сайты сдвинуты на 1 нуклеотид влево.

Таким образом правильно найдено 9 сайтов из 11 предложенных. Число реальных сайтов = 10.

Чувствительность MEME = 9/10 = 0,9. Спецефичность = 9/11 = 0,81.