Московский Государственный Университет имени М.В.Ломоносова

Факультет Биоинженерии и Биоинформатики

Учебный сайт Сеферяна Мелика

Главная

I Семестр

II Семестр

III Семестр

Проекты

Официальный сайт ФББ

Официальный сайт МГУ

Полезные ссылки

Программа MEME.

Файл pur35.fasta содержит последовательности ДНК E.coli, находящейся перед генами, регулируемыми белком PurR (пуриновым репрессором). Необходимо найти общий мотив в данных последовательностях - предполагаемый сигнал, узнаваемый белком PurR. Для этого воспользуемся сервером MEME. При этом пользуемся следующими допущениями: сигнал для белка PurR бывает только одного вида и встречается в каждой последовательности не более одного раза, длина искомого мотива - 16 нт.

Результаты.

1) LOGO

2) PSSM - position-specific scoring matrix

A C G T weight > 0
1 88 33 -9 -1045 M
2 124 -1045 -67 - 34 A
3 -93 -9 133 -193 G
4 -1045 -1045 178 -34 G
5 139 -167 -167 -93 A
6 188 -1045 -1045 -1045 A
7 188 -1045 -1045 -1045 A
8 153 -67 -1045 -193 A
9 -1045 213 -1045 -1045 C
10 -1045 -1045 213 -1045 G
11 39 -167 -167 88 W
12 -1045 -1045 -1045 188 T
13 -1045 -1045 -167 177 T
14 -1045 -67 191 -1045 G
15 -1045 191 -67 -1045 C
16 -34 -67 133 -193 G


3) Таблица найденных мотивов.

имя последовательности цепь ( +/- ) координата первого нуклеотида
1 cvpA - 229
2 pyrC + 232
3 purE - 214
4 purR - 240
5 carA - 64
6 purL - 209
7 folD + 320
8 purM - 221
9 codB + 216
10 purA + 177
11 araB + 290
12 guaB - 232
13 rbsD + 225
14 glnB - 218


Исходные последовательности, в которых подчёркнуты найденные мотивы:
* зеленым выделены экспериментально установленные сайты связывания белка PurR.

>codB
cggcactgtgtgccgatgcctgatgcgacgctgacgcgttttatcatgcctacggacctgaaccgtaggtcggataaggcgctcgcgtcgcatccgacac
catgctcagatgcctgatgcgacgctgacgcgtcttatcaggcctacccactgtttttacaccgataatttttcccccacctttttgcactcattcatat
aaaaaatatatttccccacgaaaacgattgctttttatcttcagatgaatagaatgcggcggattttttgggtttcaaacagcaaaaagggggaatttcg
tgtcgcaagataacaactttagccaggggccagtcccgcagtcggcgcggaaaggggtattggcattgacgttcgtcatgctgggattaaccttcttttc

>purE
agtgcgatggaaaaacatcaggtgcaatggctgatccacgggcatacccatcgcccggcggtgcatgaacttatcgccaatcagcaacctgcttttcgcg
tggtactgggtgcctggcatacggaaggttcaatggtgaaagtcacggcggatgacgttgagctgattcattttccgttttaaaaaacccgcaactttgc
tgatttcacagccacgcaaccgttttccttgctctctttccgtgctattctctgtgccctctaaagccgagagttgtgcaccacaggagttttaagacgc
atgtcttcccgcaataatccggcgcgtgtcgccatcgtgatggggtccaaaagcgactgggctaccatgcagttcgccgccgaaatcttcgaaatcctga

>pyrC
gtacaaccggaaaaaatgcaaacggtgatgcaaacgttgcttccctatttgaaccaggcattacgcaattactttaaccagcaacctgcttacgtcctgc
gcgaagatggcagccagggcgaagcaatggcgaaaaaactggcgaaaggcattgaagtgaagccaggcgaaattgtcattccatttactgattaatcacg
agggcgcattcgcgccctttatttttcgtgcaaaggaaaacgtttccgcttatcctttgtgtccggcaaaaacatcccttcagccggagcatagagatta
atgactgcaccatcccaggtattaaagatccgccgcccagacgactggcaccttcacctccgcgatggcgacatgttaaaaactgtcgtgccatatacca

>purR
tcaagttttctccttttttattaccacacaaaaagtgatattacgcatttttacacactgtgatgaaaaaatctcccgtcatttataatgataagtgttt
ttaccacttccccttttcgtcaagatcggccaaaattccacgcttacactatttgcgtactggccattgaccccttcctgacgctccgtgtcgtttttcc
ggcgtaccgcaacacttttgttgtgcgtaaggtgtgtaaaggcaaacgtttaccttgcgattttgcaggagctgaagttagggtctggagtgaaatggaa
tggcaacaataaaagatgtagcgaaacgagcaaacgtttccactacaactgtgtcacacgtgatcaacaaaacacgtttcgtcgctgaagaaacgcgcaa

>cvpA
tctggcttaagtggcgtggtaatgggctatacgccgaattaatacggtcttgcctgatgcgacgctggcgcgtcttatcaggcctacgcaggggtagaac
cgtaggtcggataaggcgtttacgccgcatccgacacgcattgcccgatgccgcaaaggcataaaaagtcgatggcgttgaatattttttcagcgccatt
tttattgatgcgcgggaaggaaatccctacgcaaacgttttctttttctgttagaatgcgccccgaacaggatgacagggcgtaaaatcgtgggacacat
atggtctggattgattacgccataatcgcggtgattgctttttcctctctggttagcctgatccgcggctttgttcgtgaagcgttatcgctggtgacat

>purM
acaaaaaaaatcgacggattatacctcctttcttcaaggcggcaatattcttttcgttgactttagtcaaaatgataacggtttgagataaagttatttt
atattcagatggttatgaaagaagattattccatccgaaaactaacctttaccctggcacaagtcttctttcgccgcgcgcctggggaaaagacgtgcaa
aaaggttgtgtaaagcagtctcgcaaacgtttgctttccctgttagaattgcgccgaattttatttttctaccgcaagtaacgcgtggggacccaagcag
tgaccgataaaacctctcttagctacaaagatgccggtgttgatattgacgcgggtaatgctctggttggaagaatcaaaggcgtagtgaagaaaacgcg

>guaB
agtgaccggaagctggttgcgtgaaattagaaatttcgccgctgatccaaacctgtcccatctcatgctcaagcagcagacgaaccgtttgattcaggcg
actaacggtaaaaattgcaggggattgagaaggtaacatgtgagcgagatcaaattctaaatcagcaggttattcagtcgatagtaacccgcccttcggg
gatagcaagcattttttgcaaaaaggggtagatgcaatcggttacgctctgtataatgccgcggcaatatttattaaccactctggtcgagatattgccc
atgctacgtatcgctaaagaagctctgacgtttgacgacgttctcctcgttcctgctcactctaccgttctgccgaatactgctgacctcagcacccagc

>glnB
ctgacctcatctccggtgattagtgatgcgctggtggagcaggcgctggagggtgaaaatacggcgctgccaacctttgttgaggcacgtaatcagtttg
aactcaactatttgcgtaagctgctgcaaatcaccaaaggcaacgtcacccacgcggcgagaatggcggggcgcaaccggacagaattttataaactgct
ttcccgacacgagctggatgcaaacgatttcaaggaatgaattggcgttatgtgttacgtttagcagatcaaaagacaggcgaccttttcaaggaatagc
atgaaaaagattgatgcgattataaaacccttcaagctggacgatgtccgcgaagcactggccgaagtcggtattaccggcatgacggtgaccgaagtga

>purL
ccagaatgccgatgaacagataattaatctttaattttttcaattagttaattctctgtgtcgtgcgcgtcccagcttgaaaaaacgtaataatagtgaa
aggtttactcataaatgagcggcattttgcgtaaacctgcgccagatggcaacttattacagccattggcggcacgcgttgctaattcacgatggtgatt
ttatttccacgcaaacggtttcgtcagcgcatcagattctttataatgacgcccgtttcccccccttgggtacaccgaaagcttagaagacgagagactt
atgatggaaattctgcgtggttcgcctgcactgtcggcattccgaatcaacaaactgctggcacgttttcaggctgccaggctcccggttcacaatattt

>purA
gaattcgacaatctggctggcgcttgccctggttttggtactggaaggtttagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatg
accaatttgcccgataatattttacgtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaa
aaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaactctgaaaaagcgatggtagaatccatttttaagcaaacggtgattttgaaaaa
tgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaaggtaagatcgtcgatcttctgactgaacgggctaaatatgttgtacgcta

>folD
aaatatattcaacacaaatatagacctgaagcggtaaattaccaggctgaaaattctttttatattgtcaggtatttcttaaattatcttaatccttaga
caaggaaataaatcagttccagatttacaacgccatcatggacgaaaaatgaagctttcagtctcagcgacggtgcgcctcaccttcgcaagaggtcgct
tcacgcgataaatctgaaacgaaacctgacagcgcgccccgcttctgacaaaataggcgcatccccttcgatctacgtaacagatggaatcctctctctg
atggcagcaaagattattgacggtaaaacgattgcgcagcaggtgcgctctgaagttgctcaaaaagttcaggcgcgtattgcagccggactgcgggcac

>rpiA
agggatttgcgctaatgcatttcgctcagcgagttcgcgccctggttgtgttgaatggcgtggcgttattgcctcaatttgcctgtaaacaggggcttgc
gaacggtgaactggtgcgcctgtttgcaccgtggagcggcatacccagaccgttgtatgctttatttgcggggcgaaaggggatgcctgccattgcgcga
tattttatggatgagttaaccacgcggcttgccaacggggtctgaatcgctttttttgtatataatgcgtgtgaaatttcataccacaggcgaaacgatc
atgacgcaggatgaattgaaaaaagcagtaggatgggcggcacttcagtatgttcagcccggcaccattgttggtgtaggtacaggttccaccgccgcac

>carA
gtaaattttgaccatttggtccacttttttctgctcgtttttatttcatgcaatcttcttgctgcgcaagcgttttccagaacaggttagatgatctttt
tgtcgcttaatgcctgtaaaacatgcatgagccacaaaataatataaaaaatcccgccattaagttgacttttagcgcccatatctccagaatgccgccg
tttgccagaaattcgtcggtaagcagatttgcattgatttacgtcatcattgtgaattaatatgcaaataaagtgagtgaatattctctggagggtgttt
tgattaagtcagcgctattggttctggaagacggaacccagtttcacggtcgggccataggggcaacaggttcggcggttggggaagtcgttttcaatac

>pdhR
aatgaatttaaattcgttttaattgaattaaaaatcacaaaattggtaagtgaatcggttcaattcggatttttatagtttaataatcgttaaaaaactc
ctttcctacgtaaagtctacatttgtgcatagttacaactttgaaacgttatatatgtcaagttgttaaaatgtgcacagtttcatgatttcaatcaaaa
cctgtatggacataaggtgaatactttgttactttagcgtcacagacatgaaattggtaagaccaattgacttcggcaagtggcttaagacaggaactca
tggcctacagcaaaatccgccaaccaaaactctccgatgtgattgagcagcaactggagtttttgatcctcgaaggcactctccgcccgggcgaaaaact

>fixA
ttctgtgattggtatcacatttttgtttcgggtgaatagagggcgttttttcgttaattttgattaataatcagtttgttatgctctgttgtgagtaaaa
aataacatctgactttcaatattggtgatccataaaacaatattgaaaatttctttttgctacgccgtgttttcaatattggtgaggaacttaacaatat
tgaaagttggatttatctgcgtgtgacattttcaatattggtgattaaagttttatttcaaaattaaagggcgtgatatctgtaattaacaccaccgata
tgaacgacgtttccttcatgatttctggagatgcaatgaagattattacttgctataagtgcgtgcctgatgaacaggatattgcggtcaataatgctga

>rbsD
cctccttctttatgtcgcatgagtcgttgatcctcgcaaacgcccgtggtatttgcgtctgcgcggcaagctgtacttgctgctgcaacgtaatgcgctg
cgtgcaccagatcaatttgaaatcccgccaaacagggttatcgaactgggtactcaggtcgaaatctaacgccagacgcctcctttcttcataagggggc
gtttttgttttcatggttaatcaccatgtaaaacgtttcgaggttgatcacatttccgtaacgtcacgatggttttcccaactcagtcaggattaaactg
tgggtcagcgaaacgtttcgctgatggagaaaaaaatgaaaaaaggcaccgttcttaattctgatatttcatcggtgatctcccgtctgggacataccga

>araB
gtccatattgcatcagacattgccgtcactgcgtcttttactggctcttctcgctaacccaaccggtaaccccgcttattaaaagcattctgtaacaaag
cgggaccaaagccatgacaaaaacgcgtaacaaaagtgtctataatcacggcagaaaagtccacattgattatttgcacggcgtcacactttgctatgcc
atagcatttttatccataagattagcggatcctacctgacgctttttatcgcaactctctactgtttctccatacccgtttttttggatggagtgaaacg
atggcgattgcaattggcctcgattttggcagtgattctgtgcgagctttggcggtggactgcgctaccggtgaagagatcgccaccagcgtagagtggt

Сравнение результатов с реальными сайтами узнавания PurR.

Следует отметить, что координаты предсказанных и реальных сайтов ни разу не совпали точно (как правило отличались на 1 нуклеотид), поэтому считаем сайт правильно предсказанным, если он пересекается с реальным более чем по 8 нуклеотидам.

количество реальных сайтов = 10
количество правильных предсказаний = 9 (ошибка в PurA)
общее число предсказаний = 14

Таким образом, чувствительность = 0,9; специфичность = 0,64.

© Сеферян Мелик, 2008 seferyan_m@mail.ru